論文の概要: The Two-Hop Curse: LLMs trained on A$\rightarrow$B, B$\rightarrow$C fail to learn A$\rightarrow$C
- arxiv url: http://arxiv.org/abs/2411.16353v2
- Date: Mon, 06 Jan 2025 17:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:42.118857
- Title: The Two-Hop Curse: LLMs trained on A$\rightarrow$B, B$\rightarrow$C fail to learn A$\rightarrow$C
- Title(参考訳): The Two-Hop Curse: A$\rightarrow$B, B$\rightarrow$C でトレーニングされた LLM は A$\rightarrow$C の学習に失敗する
- Authors: Mikita Balesni, Tomek Korbak, Owain Evans,
- Abstract要約: 本稿では,LLMにおける2ホップ推論の制御設定について紹介する。
トレーニング中やプロンプト中に事実が一緒に現れる場合、モデルは遅延推論を行うことができる。
この完全な失敗を、Two-Hop Curseを別々に学習した事実を構成することと呼ぶ。
- 参考スコア(独自算出の注目度): 1.8177391253202122
- License:
- Abstract: [Notice: This version is outdated. Recent research contradicts some key claims; we are working on a major revision with more nuanced analysis. Please wait for the updated version.] While LLMs excel at multi-hop questions (e.g. "Who is the spouse of the performer of Imagine?") when using chain-of-thought reasoning (CoT), they struggle when forced to reason internally (without CoT). Previous work on the size and nature of this gap produced mixed evidence with inconclusive results. In this paper, we introduce a controlled setting for investigating two-hop reasoning in LLMs, where the above-chance performance constitutes undeniable evidence for latent reasoning. We fine-tune LLMs (including Llama 3 8B Instruct and GPT-4o) on fictional facts and confirm that they generalize to answering two-hop questions about them using CoT. We find that models can perform latent reasoning when facts appear together during training or in the prompt. However, to our surprise, models completely fail at two-hop reasoning without CoT when learned facts only appear in different documents, achieving chance-level accuracy and chance-level test loss. We call this complete failure to compose separately learned facts the Two-Hop Curse. Moreover, we evaluate 9 frontier LLMs on real-world facts, finding that models completely fail at two-hop no-CoT reasoning for over half of question categories while maintaining partial success with CoT across most categories. These results suggest that LLMs lack a general capability for latent multi-hop reasoning independent of the question type.
- Abstract(参考訳): [Notice:このバージョンは時代遅れです。最近の研究は、いくつかの重要な主張と矛盾しています。我々は、より微妙な分析で大規模な改訂に取り組んでいるのです。[更新版をお待ちください]LLMはマルチホップな質問(例:「イマジネーションのパフォーマーの配偶者です」)で優れていますが、チェーン・オブ・ソート・ライティング(CoT)を使う場合、内部で(CoTを使わずに)推論せざるを得ません。
このギャップの大きさと性質に関する以前の研究は、決定的でない結果と混ざった証拠を生み出した。
本稿では,LLMにおける2ホップ推論の制御設定について紹介する。
我々は,Llama 3 8B Instruct と GPT-4o を含む LLM を架空の事実に基づいて微調整し,それらが CoT を用いてそれらに関する 2-hop 質問への回答を一般化することを確認した。
トレーニング中やプロンプト中に事実が一緒に現れる場合、モデルは遅延推論を行うことができる。
しかし、意外なことに、学習された事実が異なる文書にのみ現れる場合、モデルはCoTなしでは2ホップの推論で完全に失敗し、チャンスレベルの精度とチャンスレベルのテスト損失を達成できる。
この完全な失敗を、Two-Hop Curseを別々に学習した事実を構成することと呼ぶ。
さらに、実世界の事実に基づいて9つのフロンティアLSMを評価し、ほとんどのカテゴリでCoTを部分的に成功させながら、質問カテゴリの半分以上においてモデルは完全に2ホップのNo-CoT推論で失敗することを発見した。
これらの結果から, LLM は質問型に依存しない潜在マルチホップ推論の汎用能力に欠けていたことが示唆された。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - On Memorization of Large Language Models in Logical Reasoning [70.94164038947078]
大きな言語モデル(LLM)は、挑戦的な推論ベンチマークで優れたパフォーマンスを達成するが、基本的な推論ミスを発生させることもできる。
1つの仮説は、より高度でほぼ飽和した性能は、類似した問題の記憶が原因ではないかというものである。
微調整は暗記を重くするが,常に一般化性能を向上することを示す。
論文 参考訳(メタデータ) (2024-10-30T15:31:54Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - A Comprehensive Evaluation on Event Reasoning of Large Language Models [68.28851233753856]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。