論文の概要: The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C
- arxiv url: http://arxiv.org/abs/2411.16353v1
- Date: Mon, 25 Nov 2024 13:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:24:12.990903
- Title: The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C
- Title(参考訳): The Two-Hop Curse: LLMs Training on A->B, B->C fail to learn A-->C
- Authors: Mikita Balesni, Tomek Korbak, Owain Evans,
- Abstract要約: 本稿では,LLMにおける2ホップ推論の制御設定について紹介する。
トレーニング中やプロンプト中に事実が一緒に現れる場合、モデルは遅延推論を行うことができる。
この完全な失敗を、Two-Hop Curseを別々に学習した事実を構成することと呼ぶ。
- 参考スコア(独自算出の注目度): 1.8177391253202122
- License:
- Abstract: While LLMs excel at multi-hop questions (e.g. "Who is the spouse of the performer of Imagine?") when using chain-of-thought reasoning (CoT), they struggle when forced to reason internally (without CoT). Previous work on the size and nature of this gap produced mixed evidence with inconclusive results. In this paper, we introduce a controlled setting for investigating two-hop reasoning in LLMs, where the above-chance performance constitutes undeniable evidence for latent reasoning. We fine-tune LLMs (including Llama 3 8B Instruct and GPT-4o) on fictional facts and confirm that they generalize to answering two-hop questions about them using CoT. We find that models can perform latent reasoning when facts appear together during training or in the prompt. However, to our surprise, models completely fail at two-hop reasoning without CoT when learned facts only appear in different documents, achieving chance-level accuracy and chance-level test loss. We call this complete failure to compose separately learned facts the Two-Hop Curse. Moreover, we evaluate 9 frontier LLMs on real-world facts, finding that models completely fail at two-hop no-CoT reasoning for over half of question categories while maintaining partial success with CoT across most categories. These results suggest that LLMs lack a general capability for latent multi-hop reasoning independent of the question type.
- Abstract(参考訳): LLMはマルチホップ質問(例:「イマジネーションのパフォーマーの配偶者」)で優れているが、チェーン・オブ・シークレット推論(CoT)を使用する場合、(CoTを使わずに)内部で推論を迫られると苦労する。
このギャップの大きさと性質に関する以前の研究は、決定的でない結果と混ざった証拠を生み出した。
本稿では,LLMにおける2ホップ推論の制御設定について紹介する。
我々は,Llama 3 8B Instruct と GPT-4o を含む LLM を架空の事実に基づいて微調整し,それらが CoT を用いてそれらに関する 2-hop 質問への回答を一般化することを確認した。
トレーニング中やプロンプト中に事実が一緒に現れる場合、モデルは遅延推論を行うことができる。
しかし、意外なことに、学習された事実が異なる文書にのみ現れる場合、モデルはCoTなしでは2ホップの推論で完全に失敗し、チャンスレベルの精度とチャンスレベルのテスト損失を達成できる。
この完全な失敗を、Two-Hop Curseを別々に学習した事実を構成することと呼ぶ。
さらに、実世界の事実に基づいて9つのフロンティアLSMを評価し、ほとんどのカテゴリでCoTを部分的に成功させながら、質問カテゴリの半分以上においてモデルは完全に2ホップのNo-CoT推論で失敗することを発見した。
これらの結果から, LLM は質問型に依存しない潜在マルチホップ推論の汎用能力に欠けていたことが示唆された。
関連論文リスト
- LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。
驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。
このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-12T16:31:21Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。
既存の数式語問題に対して,それらの性能を併用して評価する。
論文 参考訳(メタデータ) (2024-10-02T17:01:10Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning [34.34977150518316]
textscCoTErrorSetは609,432の質問を持つ新しいベンチマークで、それぞれが正しい参照とエラー参照の両方で設計されている。
textbfSelf-rethinking guideing LLMsは、彼らが同じような間違いを犯したかどうかを再考するよう促している。
textbfMistakeチューニングは、正しい推論ドメインと間違った推論ドメインの両方でモデルを微調整する。
論文 参考訳(メタデータ) (2024-03-29T08:30:34Z) - Do Large Language Models Latently Perform Multi-Hop Reasoning? [33.41309859079347]
我々は,Large Language Models (LLMs) が "The mother of the singer of 'Superstition' is" のような複雑なプロンプトを用いて,最近マルチホップ推論を行っているかを検討する。
特定の関係型のプロンプトに対する潜在マルチホップ推論の強い証拠が得られ,プロンプトの80%以上で推論経路が用いられている。
論文 参考訳(メタデータ) (2024-02-26T18:57:54Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。