論文の概要: Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
- arxiv url: http://arxiv.org/abs/2503.09819v1
- Date: Wed, 12 Mar 2025 20:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.421082
- Title: Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval
- Title(参考訳): 注意喚起よりも注意を喚起する:注意誘導検索による無訓練長所推論
- Authors: Yuwei Zhang, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang,
- Abstract要約: 大規模言語モデル(LLM)は、要求される能力よりもはるかに短い有効文脈長を示すことが多い。
本研究では,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。
以上の結果から,Attrievalは,合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
- 参考スコア(独自算出の注目度): 33.84832445715185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit substantially shorter effective context lengths than their claimed capacities, especially when handling complex reasoning tasks that require integrating information from multiple parts of a long context and performing multi-step reasoning. Although Chain-of-Thought (CoT) prompting has shown promise in reducing task complexity, our empirical analysis reveals that it does not fully resolve this limitation. Through controlled experiments, we identify poor recall of implicit facts as the primary cause of failure, which significantly hampers reasoning performance. Interestingly, we observe that the internal attention weights from the generated CoT tokens can effectively ground implicit facts, even when these facts are not explicitly recalled. Building on this insight, we propose a novel training-free algorithm, Attrieval, which leverages attention weights to retrieve relevant facts from the long context and incorporates them into the reasoning process. Additionally, we find that selecting context tokens from CoT tokens further improves performance. Our results demonstrate that Attrieval enhances long-context reasoning capability notably on both synthetic and real-world QA datasets with various models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に長いコンテキストの複数の部分からの情報を統合し、複数のステップの推論を実行する複雑な推論タスクを扱う場合、要求される能力よりもはるかに短い有効コンテキスト長を示すことが多い。
CoT(Chain-of-Thought)のプロンプトによってタスクの複雑さが軽減されるが、我々の経験的分析は、この制限を完全には解決していないことを明らかにしている。
制御された実験を通して、暗黙的な事実の記憶不足を失敗の主な原因と認識し、パフォーマンスを著しく損なう。
興味深いことに、生成したCoTトークンの内部の注意重みが、これらの事実が明示的にリコールされていない場合でも、暗黙の事実を効果的に根拠とすることができる。
この知見に基づいて,注意重みを利用した学習自由度アルゴリズムAttrievalを提案する。
さらに,CoTトークンからコンテキストトークンを選択することで,パフォーマンスがさらに向上することがわかった。
以上の結果から,Attrievalは,多種多様なモデルを用いた合成QAデータセットと実世界のQAデータセットの両方において,長文推論能力の向上を図っている。
関連論文リスト
- Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study [0.9424565541639368]
化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。
我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
論文 参考訳(メタデータ) (2025-04-23T04:36:19Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [39.613595533503144]
CoT(Chain-of-Thought)プロンプトは、大規模言語モデルにおける推論能力を高める能力として広く認識されている。
CoTは、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを示す。
パターンベースICLにおけるCoTの性能を駆動する基本的明示的双対性を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond [88.5807076505261]
大規模推論モデル (LRM) は, 推論中におけるチェーン・オブ・ソート (CoT) の推論長を拡大することにより, 高い性能向上を示した。
懸念が高まっているのは、過度に長い推論の痕跡を生み出す傾向にある。
この非効率性は、トレーニング、推論、現実のデプロイメントに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-03-27T15:36:30Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。
認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。
SoTは、無視できる精度の影響でトークンを76%削減する。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - The Impact of Reasoning Step Length on Large Language Models [40.546685248243534]
思考の連鎖(CoT)は、大きな言語モデルの推論能力を改善する上で重要である。
プロンプトにおけるCoTの有効性と推論ステップの長さの相関について検討した。
論文 参考訳(メタデータ) (2024-01-10T04:37:38Z) - Concise and Organized Perception Facilitates Reasoning in Large Language Models [32.71672086718057]
大規模言語モデル (LLM) は, 推論作業における乱雑な内容や無関係な内容を扱う際に, 人間の認知バイアスに類似した障害パターンを示す。
コンシス・アンド・オーガナイズド・パーセプション(COP)という新しい推論手法を提案する。
COPは与えられたステートメントを慎重に分析し、冗長性を効率的に排除しながら、最も関連する情報を識別する。
論文 参考訳(メタデータ) (2023-10-05T04:47:49Z) - Unlocking Temporal Question Answering for Large Language Models with Tailor-Made Reasoning Logic [84.59255070520673]
大きな言語モデル(LLM)は、時間的推論に関わる際に課題に直面します。
本研究では,時間的質問応答タスクに特化して設計された新しいフレームワークであるTempLogicを提案する。
論文 参考訳(メタデータ) (2023-05-24T10:57:53Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。