論文の概要: Do Large Language Models Latently Perform Multi-Hop Reasoning?
- arxiv url: http://arxiv.org/abs/2402.16837v1
- Date: Mon, 26 Feb 2024 18:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:34:13.218482
- Title: Do Large Language Models Latently Perform Multi-Hop Reasoning?
- Title(参考訳): 大規模言語モデルはマルチホップ推論を遅延的に行うか?
- Authors: Sohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian
Riedel
- Abstract要約: 我々は,Large Language Models (LLMs) が "The mother of the singer of 'Superstition' is" のような複雑なプロンプトを用いて,最近マルチホップ推論を行っているかを検討する。
特定の関係型のプロンプトに対する潜在マルチホップ推論の強い証拠が得られ,プロンプトの80%以上で推論経路が用いられている。
- 参考スコア(独自算出の注目度): 33.41309859079347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether Large Language Models (LLMs) latently perform multi-hop
reasoning with complex prompts such as "The mother of the singer of
'Superstition' is". We look for evidence of a latent reasoning pathway where an
LLM (1) latently identifies "the singer of 'Superstition'" as Stevie Wonder,
the bridge entity, and (2) uses its knowledge of Stevie Wonder's mother to
complete the prompt. We analyze these two hops individually and consider their
co-occurrence as indicative of latent multi-hop reasoning. For the first hop,
we test if changing the prompt to indirectly mention the bridge entity instead
of any other entity increases the LLM's internal recall of the bridge entity.
For the second hop, we test if increasing this recall causes the LLM to better
utilize what it knows about the bridge entity. We find strong evidence of
latent multi-hop reasoning for the prompts of certain relation types, with the
reasoning pathway used in more than 80% of the prompts. However, the
utilization is highly contextual, varying across different types of prompts.
Also, on average, the evidence for the second hop and the full multi-hop
traversal is rather moderate and only substantial for the first hop. Moreover,
we find a clear scaling trend with increasing model size for the first hop of
reasoning but not for the second hop. Our experimental findings suggest
potential challenges and opportunities for future development and applications
of LLMs.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) が "The mother of the singer of 'Superstition' is is." のような複雑なプロンプトでマルチホップ推論を行うかどうかを検討する。
我々は,LLM(1)が「迷信」の歌手を橋梁の実体であるスティービー・ワンダー(Stevie Wonder)と認識し,(2)スティービー・ワンダー(Stevie Wonder)の母親の知識を駆使してプロンプトを完遂する潜在的推論経路の証拠を探る。
これら2つのホップを個別に分析し,それらの共起を潜在的マルチホップ推論の指標と考える。
最初のホップでは、他のどのエンティティよりも間接的にブリッジエンティティに言及するプロンプトを変更すると、LLMの内部でブリッジエンティティをリコールする。
第2のホップでは、このリコールの増加がLLMのブリッジエンティティに関する知識をより有効活用させるかどうかをテストする。
我々は,ある関係型のプロンプトに対する潜在的マルチホップ推論の強い証拠と,プロンプトの80%以上で使用されている推論経路を見いだした。
しかし、利用状況は高度であり、さまざまなタイプのプロンプトによって異なる。
また、平均して、第2ホップと全マルチホップトラバーサルの証拠は、比較的適度であり、第1ホップでのみ十分である。
さらに,モデルサイズを増加させることで,推論の第一段階に留まらず,第二段階のホップに留まらず,明確なスケーリング傾向を見出した。
実験結果から, LLMの今後の開発と応用に向けた課題と機会が示唆された。
関連論文リスト
- The Two-Hop Curse: LLMs trained on A->B, B->C fail to learn A-->C [1.8177391253202122]
本稿では,LLMにおける2ホップ推論の制御設定について紹介する。
トレーニング中やプロンプト中に事実が一緒に現れる場合、モデルは遅延推論を行うことができる。
この完全な失敗を、Two-Hop Curseを別々に学習した事実を構成することと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T13:04:28Z) - Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop
Queries [22.4349439498591]
Retrieval-augmented Generation (RAG)は、関連する知識を検索することで、大きな言語モデル(LLM)を拡張する。
既存のRAGシステムはマルチホップクエリに応答するには不十分であり、複数の証拠を検索して推論する必要がある。
我々は,知識ベース,多数のマルチホップクエリのコレクション,基礎的回答,関連する支持証拠からなる新しいデータセットであるMultiHop-RAGを開発した。
論文 参考訳(メタデータ) (2024-01-27T11:41:48Z) - Deceptive Semantic Shortcuts on Reasoning Chains: How Far Can Models Go without Hallucination? [73.454943870226]
本研究はセマンティックアソシエーションによって誘発される特定の種類の幻覚の研究である。
この現象を定量化するために,EureQAと呼ばれる新しい探索手法とベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-16T09:27:36Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。