論文の概要: Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning
Performance of GPT-2
- arxiv url: http://arxiv.org/abs/2103.13033v1
- Date: Wed, 24 Mar 2021 07:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 18:58:00.197664
- Title: Thinking Aloud: Dynamic Context Generation Improves Zero-Shot Reasoning
Performance of GPT-2
- Title(参考訳): 動的コンテキスト生成によるGPT-2のゼロショット推論性能の向上
- Authors: Gregor Betz and Kyle Richardson and Christian Voigt
- Abstract要約: 動的問題解明は,推論と自然言語推論のタスクにおいて,gpt-2のゼロショット性能を大幅に改善することを示す。
特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。
- 参考スコア(独自算出の注目度): 6.037255578530709
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Thinking aloud is an effective meta-cognitive strategy human reasoners apply
to solve difficult problems. We suggest to improve the reasoning ability of
pre-trained neural language models in a similar way, namely by expanding a
task's context with problem elaborations that are dynamically generated by the
language model itself. Our main result is that dynamic problem elaboration
significantly improves the zero-shot performance of GPT-2 in a deductive
reasoning and natural language inference task: While the model uses a syntactic
heuristic for predicting an answer, it is capable (to some degree) of
generating reasoned additional context which facilitates the successful
application of its heuristic. We explore different ways of generating
elaborations, including fewshot learning, and find that their relative
performance varies with the specific problem characteristics (such as problem
difficulty). Moreover, the effectiveness of an elaboration can be explained in
terms of the degree to which the elaboration semantically coheres with the
corresponding problem. In particular, elaborations that are most faithful to
the original problem description may boost accuracy by up to 24%.
- Abstract(参考訳): 声を出して考えることは、人間の推論者が難しい問題を解決するための効果的なメタ認知戦略である。
本稿では,言語モデル自体が動的に生成する問題情報を用いてタスクのコンテキストを拡張することにより,学習済みのニューラル言語モデルの推論能力を向上させることを提案する。
本モデルでは,解答の予測に構文的ヒューリスティックを用いるが,そのヒューリスティックな適用を成功させるような推論付き追加コンテキストを生成できる(ある程度)。
少人数学習を含む多元化の生成方法について検討し,それらの相対的性能が,特定の問題特性(問題難易度など)によって異なることを見出した。
さらに, 詳細化の有効性は, 意味的に対応する問題と一致する程度で説明できる。
特に、元の問題記述に最も忠実な説明は、精度を最大24%向上させる可能性がある。
関連論文リスト
- From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models [81.15974174627785]
入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
論文 参考訳(メタデータ) (2022-10-21T15:12:37Z) - ReAct: Synergizing Reasoning and Acting in Language Models [44.746116256516046]
大規模言語モデル (LLM) は, 推論トレースとタスク固有動作の両方を, インターリーブ方式で生成可能であることを示す。
我々はReActという名前のアプローチを多種多様な言語と意思決定タスクに適用する。
ReActは、単純なウィキペディアAPIと対話することで、チェーン・オブ・ソート推論でよく見られる幻覚やエラーの伝播の問題を克服する。
論文 参考訳(メタデータ) (2022-10-06T01:00:32Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Social Commonsense Reasoning with Multi-Head Knowledge Attention [24.70946979449572]
社会的コモンセンス推論には、テキストの理解、社会イベントに関する知識、その実践的な意味、およびコモンセンス推論スキルが必要である。
本稿では,半構造化コモンセンス推論規則を符号化し,それをトランスフォーマーベースの推論セルに組み込むことを学習する,新しいマルチヘッド知識アテンションモデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T10:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。