論文の概要: Lessons from Studying Two-Hop Latent Reasoning
- arxiv url: http://arxiv.org/abs/2411.16353v3
- Date: Sat, 06 Sep 2025 13:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:02.799754
- Title: Lessons from Studying Two-Hop Latent Reasoning
- Title(参考訳): 2ホップ遅延推論から学んだこと
- Authors: Mikita Balesni, Tomek Korbak, Owain Evans,
- Abstract要約: 本研究では,大規模言語モデルにおける2つのホップ推論を探索するための制御設定を提案する。
合成事実に対する2ホップ推論をテストする。
モデルは2つの合成事実を構成することができず、1つの事実が合成され、もう1つの事実が自然なときに成功する。
- 参考スコア(独自算出の注目度): 8.154468580021792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can use chain-of-thought (CoT) to externalize reasoning, potentially enabling oversight of capable LLM agents. Prior work has shown that models struggle at two-hop question-answering without CoT. This capability is so basic that if it was a fundamental limitation, it would imply that many complex agentic tasks would similarly require CoT. We investigate LLM latent reasoning capabilities using two-hop question answering as a case study. Previous work on the gap between latent and externalized two-hop reasoning produced mixed evidence with inconclusive results. In this paper, we introduce a controlled setting for investigating two-hop reasoning in LLMs, where a positive result provides definitive evidence for latent reasoning. We fine-tune LLMs (including Llama 3 8B and GPT-4o) on synthetic facts and test two-hop reasoning over these facts. By using synthetic facts, we rule out memorization and reasoning shortcuts as explanations for two-hop performance. We observe a nuanced picture: Models fail to compose two synthetic facts, but can succeed when one fact is synthetic and the other is natural. These results demonstrate that LLMs are undeniably capable of latent two-hop reasoning, although it remains unclear how this ability scales with model size. Finally, we highlight a lesson for researchers studying LLM reasoning: when drawing conclusions about LLM latent reasoning, one must be careful to avoid both spurious successes (that stem from memorization and reasoning shortcuts) and spurious failures (that may stem from artificial experimental setups, divorced from training setups of frontier LLMs).
- Abstract(参考訳): 大規模言語モデルは、推論の外部化にチェーン・オブ・シント(CoT)を使用することで、有能なLLMエージェントの監視を可能にする可能性がある。
以前の研究によると、モデルはCoTなしで2ホップの質問応答で苦労している。
この能力は非常に基本的なので、基本的な制限であれば、多くの複雑なエージェントタスクが同様にCoTを必要とすることを意味する。
ケーススタディとして2つの質問応答を用いたLCM潜時推論機能について検討した。
潜伏と外在化二足推論のギャップに関する以前の研究は、決定的でない結果と混ざった証拠を生み出した。
本稿では,LLMにおける2つのホップ推論を検証するための制御設定について紹介する。
Llama 3 8B および GPT-4o を含む LLM を合成事実に微調整し、これらの事実を二乗推論する。
合成事実を用いて、2ホップ演奏の説明として記憶と推論のショートカットを除外する。
モデルは2つの合成事実を構成することができず、1つの事実が合成され、もう1つの事実が自然なときに成功する。
これらの結果から, LLMはモデルサイズとどのようにスケールするかは定かではないが, 遅延二脚推論が可能であることが示唆された。
最後に、LLM推論の研究者にとっての教訓として、LLMの潜伏推論に関する結論を描く際には、(記憶と推論のショートカットに由来する)急激な成功と(人工的な実験装置に由来するかもしれない)急激な失敗の両方を避けるよう注意する必要がある。
関連論文リスト
- LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。
驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。
このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - A Comprehensive Evaluation on Event Reasoning of Large Language Models [68.28851233753856]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - Do Large Language Models Latently Perform Multi-Hop Reasoning? [33.41309859079347]
我々は,Large Language Models (LLMs) が "The mother of the singer of 'Superstition' is" のような複雑なプロンプトを用いて,最近マルチホップ推論を行っているかを検討する。
特定の関係型のプロンプトに対する潜在マルチホップ推論の強い証拠が得られ,プロンプトの80%以上で推論経路が用いられている。
論文 参考訳(メタデータ) (2024-02-26T18:57:54Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。