論文の概要: Back Attention: Understanding and Enhancing Multi-Hop Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.10835v1
- Date: Sat, 15 Feb 2025 15:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:11.441493
- Title: Back Attention: Understanding and Enhancing Multi-Hop Reasoning in Large Language Models
- Title(参考訳): バックアテンション:大規模言語モデルにおけるマルチホップ推論の理解と強化
- Authors: Zeping Yu, Yonatan Belinkov, Sophia Ananiadou,
- Abstract要約: 我々は,「ヴォルフガング・アマデウス・モーツァルトの母の配偶者」のようなプロンプトにおいて,大規模言語モデルが潜在マルチホップ推論をどのように行うかを検討する。
故障は相関属性抽出の段階に起因することが多く、矛盾するロジットが予測精度を低下させる。
注意計算において,下位層が異なる位置から高層隠れ状態を利用することができる機構であるバックアテンションを提案する。
- 参考スコア(独自算出の注目度): 51.53835083483751
- License:
- Abstract: We investigate how large language models perform latent multi-hop reasoning in prompts like "Wolfgang Amadeus Mozart's mother's spouse is". To analyze this process, we introduce logit flow, an interpretability method that traces how logits propagate across layers and positions toward the final prediction. Using logit flow, we identify four distinct stages in single-hop knowledge prediction: (A) entity subject enrichment, (B) entity attribute extraction, (C) relation subject enrichment, and (D) relation attribute extraction. Extending this analysis to multi-hop reasoning, we find that failures often stem from the relation attribute extraction stage, where conflicting logits reduce prediction accuracy. To address this, we propose back attention, a novel mechanism that enables lower layers to leverage higher-layer hidden states from different positions during attention computation. With back attention, a 1-layer transformer achieves the performance of a 2-layer transformer. Applied to four LLMs, back attention improves accuracy on five reasoning datasets, demonstrating its effectiveness in enhancing latent multi-hop reasoning ability.
- Abstract(参考訳): 我々は,「ヴォルフガング・アマデウス・モーツァルトの母の配偶者」のようなプロンプトにおいて,大規模言語モデルが潜在マルチホップ推論をどのように行うかを検討する。
この過程を解析するために,ロジットが層間を伝播し最終予測に向かう過程を辿る解法であるロジットフローを導入する。
単一ホップ知識予測において,ロジットフローを用いて,(A)エンティティ属性抽出,(B)エンティティ属性抽出,(C)関係属性抽出,(D)関係属性抽出の4つの異なる段階を同定する。
この分析をマルチホップ推論に拡張すると、故障はしばしば相関属性抽出段階から発生し、矛盾するロジットが予測精度を低下させる。
そこで本研究では,低層に異なる位置から隠蔽された高層状態を利用するための新しいメカニズムである,アテンションアテンション(back attention)を提案する。
1層変圧器は2層変圧器の性能を達成する。
4つのLCMに適用すると、バックアテンションは5つの推論データセットの精度を改善し、潜在マルチホップ推論能力を高める効果を示す。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Memory Injections: Correcting Multi-Hop Reasoning Failures during
Inference in Transformer-Based Language Models [4.343604069244352]
そこで本研究では,アテンションヘッドにターゲットメモリを注入することで,マルチホップ推論失敗をピンポイントし,修正する手法を提案する。
キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-11T16:39:30Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - Consistent Multi-Granular Rationale Extraction for Explainable Multi-hop
Fact Verification [13.72453491358488]
本稿では,マルチホップ事実検証のための一貫性と忠実度を考慮した多粒性論理的抽出の実現可能性について検討する。
特に、事前訓練された妥当性予測モデルにより、トークンレベル説明器と文レベル説明器を同時に訓練し、多粒性論理式を得る。
3つのマルチホップ事実検証データセットの実験結果から,提案手法は最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T12:31:53Z) - Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question
Answering [35.40919477319811]
本稿では,事前学習された言語モデルにマルチホップ関係推論モジュールを組み込む新しい知識認識手法を提案する。
外部知識グラフから抽出したサブグラフに対して、マルチホップ、マルチリレーショナル推論を行う。
パスベースの推論手法とグラフニューラルネットワークを統合して、より優れた解釈性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2020-05-01T23:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。