論文の概要: How Do LLMs Perform Two-Hop Reasoning in Context?
- arxiv url: http://arxiv.org/abs/2502.13913v2
- Date: Wed, 28 May 2025 15:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:27.340301
- Title: How Do LLMs Perform Two-Hop Reasoning in Context?
- Title(参考訳): LLMはどのようにして2ホップ推論を実現するか?
- Authors: Tianyu Guo, Hanlin Zhu, Ruiqi Zhang, Jiantao Jiao, Song Mei, Michael I. Jordan, Stuart Russell,
- Abstract要約: 2-ホップ推論(英: two-hop reasoning)とは、2つの論理的なステップで結論を導く過程を指す。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、単純な2つのホップ推論の問題を解くのに失敗することは驚くほどある。
我々は、合成二脚推論タスクでスクラッチから3層トランスフォーマーを訓練し、内部情報の流れをリバースエンジニアリングする。
- 参考スコア(独自算出の注目度): 76.79936191530784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ``Socrates is human. All humans are mortal. Therefore, Socrates is mortal.'' This form of argument illustrates a typical pattern of two-hop reasoning. Formally, two-hop reasoning refers to the process of inferring a conclusion by making two logical steps, each connecting adjacent concepts, such that the final conclusion depends on the integration of both steps. It is one of the most fundamental components of human reasoning and plays a crucial role in both formal logic and everyday decision-making. Despite recent progress in large language models (LLMs), we surprisingly find that they can fail at solving simple two-hop reasoning problems when distractors are present. We observe on a synthetic dataset that pre-trained LLMs often resort to random guessing among all plausible conclusions. However, after few steps of fine-tuning, models achieve near-perfect accuracy and exhibit strong length generalization. To understand the underlying mechanisms, we train a 3-layer Transformer from scratch on a synthetic two-hop reasoning task and reverse-engineer its internal information flow. We observe a clear progression in the attention logits throughout training. This pictures a sharp phase transition from an initial stage of random guessing to the emergence of a structured sequential query mechanism, where the model first retrieves the preceding and the bridge concepts in the early layers and then uses them to infer the final answer. Finally, we show that these dynamics can be captured by a minimal three-parameter attention-only network.
- Abstract(参考訳): ソクラテスは人間である。
すべての人間は致命的です。
そのため、ソクラテスは致命的な存在である。
「''この形式の議論は二本足の推論の典型的なパターンを示している。
2-ホップ推論(英: two-hop reasoning)とは、2つの論理的なステップをそれぞれ隣り合う概念を結び、最終的な結論が両方のステップの統合に依存するようにして結論を推論する過程を指す。
これは人間の推論の最も基本的な要素の1つであり、形式論理と日常的な意思決定の両方において重要な役割を果たす。
近年の大規模言語モデル (LLMs) の進歩にもかかわらず, 邪魔者が存在する場合, 単純な2つのホップ推論問題を解くことに失敗する。
我々は、LLMを事前訓練した合成データセットにおいて、すべての可算結論のうちランダムな推測に頼っていることを観察する。
しかし、数ステップの微調整の後、モデルはほぼ完璧な精度を達成し、強い長さの一般化を示す。
基礎となるメカニズムを理解するため,合成二脚推論タスクでスクラッチから3層トランスフォーマーを訓練し,内部情報の流れをリバースエンジニアリングする。
トレーニングを通して注意ログの明確な進捗を観察する。
これは、ランダムな推測の初期段階から構造化されたシーケンシャルなクエリメカニズムの出現までの鋭い位相遷移を描いている。
最後に、これらのダイナミクスは、最小3パラメータの注意のみのネットワークでキャプチャできることを示す。
関連論文リスト
- (How) Do Language Models Track State? [50.516691979518164]
トランスフォーマー言語モデル(LM)は、進化している世界の未観測状態を追跡する必要があるように見える振る舞いを示す。
順列を構成するために訓練された、あるいは微調整されたLMにおける状態追跡について検討した。
LMは2つの状態追跡機構のうちの1つを一貫して学習していることを示す。
論文 参考訳(メタデータ) (2025-03-04T18:31:02Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - How Transformers Solve Propositional Logic Problems: A Mechanistic Analysis [16.65073455206535]
大きな言語モデル(LLM)は、計画と推論を必要とするタスクで素晴らしいパフォーマンスを示しています。
そこで本研究では,複雑な論理的推論を行うネットワークの能力の基盤となる内部メカニズムについて検討する。
論文 参考訳(メタデータ) (2024-11-06T18:35:32Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - Towards a Theoretical Understanding of the 'Reversal Curse' via Training Dynamics [45.69328374321502]
自動回帰型大言語モデル(LLM)は、多くの複雑な推論タスクを解くのに優れた能力を示す。
LLM は、2つの文が意味的に同一であっても、推論中に '$B get A$' と結論付けることができない。
2つの自己回帰モデルに対する勾配降下のトレーニング力学を用いて、理論的に逆の呪いを解析する。
論文 参考訳(メタデータ) (2024-05-07T21:03:51Z) - How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning [44.02173413922695]
理解の欠如は、CoT(Chain-of-Thought)の促進を促進するモデルの内部メカニズムに大きく影響する。
本研究では,CoT推論を一視点から示す大規模言語モデル内のサブ構造について検討する。
論文 参考訳(メタデータ) (2024-02-28T13:14:20Z) - Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。
我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。
複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文 参考訳(メタデータ) (2024-02-05T18:25:51Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。