論文の概要: Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
- arxiv url: http://arxiv.org/abs/2503.09819v1
- Date: Wed, 12 Mar 2025 20:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:39.929135
- Title: Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
- Title(参考訳): 注意喚起よりも注意を喚起する:注意誘導検索による無訓練長所推論
- Authors: Yuwei Zhang, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang,
- Abstract要約: 大規模言語モデル(LLM)は、要求される能力よりもはるかに短い有効文脈長を示すことが多い。
本研究では,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。
以上の結果から,Attrievalは,合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
- 参考スコア(独自算出の注目度): 33.84832445715185
- License:
- Abstract: Large Language Models (LLMs) often exhibit substantially shorter effective context lengths than their claimed capacities, especially when handling complex reasoning tasks that require integrating information from multiple parts of a long context and performing multi-step reasoning. Although Chain-of-Thought (CoT) prompting has shown promise in reducing task complexity, our empirical analysis reveals that it does not fully resolve this limitation. Through controlled experiments, we identify poor recall of implicit facts as the primary cause of failure, which significantly hampers reasoning performance. Interestingly, we observe that the internal attention weights from the generated CoT tokens can effectively ground implicit facts, even when these facts are not explicitly recalled. Building on this insight, we propose a novel training-free algorithm, Attrieval, which leverages attention weights to retrieve relevant facts from the long context and incorporates them into the reasoning process. Additionally, we find that selecting context tokens from CoT tokens further improves performance. Our results demonstrate that Attrieval enhances long-context reasoning capability notably on both synthetic and real-world QA datasets with various models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に長いコンテキストの複数の部分からの情報を統合し、複数のステップの推論を実行する複雑な推論タスクを扱う場合、要求される能力よりもはるかに短い有効コンテキスト長を示すことが多い。
CoT(Chain-of-Thought)のプロンプトによってタスクの複雑さが軽減されるが、我々の経験的分析は、この制限を完全には解決していないことを明らかにしている。
制御された実験を通して、暗黙的な事実の記憶不足を失敗の主な原因と認識し、パフォーマンスを著しく損なう。
興味深いことに、生成したCoTトークンの内部の注意重みが、これらの事実が明示的にリコールされていない場合でも、暗黙の事実を効果的に根拠とすることができる。
この知見に基づいて,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。
さらに,CoTトークンからコンテキストトークンを選択することで,パフォーマンスがさらに向上することがわかった。
以上の結果から,Attrievalは,多種多様なモデルを用いた合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
関連論文リスト
- When More is Less: Understanding Chain-of-Thought Length in LLMs [53.77747102201451]
CoT推論は大規模言語モデル(LLM)の多段階推論能力を高める
しかし、ほとんどのモデルやタスクでは、CoT長の増加は一貫して推論精度の向上につながりますか?
本稿では, 推論ステップの数が増加するにつれて, 性能は向上するが, 最終的には低下する,というニュアンスな関係を観察する。
論文 参考訳(メタデータ) (2025-02-11T05:28:59Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model [26.20569269005708]
LALM(Large Audio-Language Models)は、音声知覚や理解に関わるタスクにおいて顕著な性能を示す。
しかし、それらの推論能力は、複雑な現実世界の問題を解決するのに重要なものであり、まだ未解明のままである。
聴覚モダリティを越えた推論能力を高めるため, LALMへのCoT推論の統合を初めて実施する。
論文 参考訳(メタデータ) (2025-01-13T11:54:40Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Analyzing Chain-of-Thought Prompting in Large Language Models via
Gradient-based Feature Attributions [10.621564997491808]
チェーン・オブ・シークレット(CoT)のプロンプトは、大規模言語モデルの精度を実証的に改善することが示されている。
我々は、CoTプロンプトが特定の入力トークンに割り当てる相対的重要性に影響を及ぼすかどうかを検討する。
以上の結果から,CoTプロンプトは意味的関連トークンによるサリエンシスコアの規模を増大させるものではないが,サリエンシスコアのロバスト性を高め,モデル出力の摂動や変動に疑問を投げかけることが示唆された。
論文 参考訳(メタデータ) (2023-07-25T08:51:30Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。