論文の概要: Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs
- arxiv url: http://arxiv.org/abs/2602.01914v1
- Date: Mon, 02 Feb 2026 10:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.071203
- Title: Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs
- Title(参考訳): 長軸解釈可能性に向けて:LLMの高効率かつ忠実なマルチトーケン属性
- Authors: Wenbo Pan, Zhichao Liu, Xianlong Wang, Haining Yu, Xiaohua Jia,
- Abstract要約: FlashTraceは効率的なマルチトークン属性法であり、単一のパスでマルチトークンターゲットに対する属性を計算する。
我々は,FlashTraceが既存のベースラインを130倍以上のスピードアップし,忠実性を維持していることを示す。
- 参考スコア(独自算出の注目度): 27.102387826390906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Token attribution methods provide intuitive explanations for language model outputs by identifying causally important input tokens. However, as modern LLMs increasingly rely on extended reasoning chains, existing schemes face two critical challenges: (1) efficiency bottleneck, where attributing a target span of M tokens within a context of length N requires O(M*N) operations, making long-context attribution prohibitively slow; and (2) faithfulness drop, where intermediate reasoning tokens absorb attribution mass, preventing importance from propagating back to the original input. To address these, we introduce FlashTrace, an efficient multi-token attribution method that employs span-wise aggregation to compute attribution over multi-token targets in a single pass, while maintaining faithfulness. Moreover, we design a recursive attribution mechanism that traces importance through intermediate reasoning chains back to source inputs. Extensive experiments on long-context retrieval (RULER) and multi-step reasoning (MATH, MorehopQA) tasks demonstrate that FlashTrace achieves over 130x speedup over existing baselines while maintaining superior faithfulness. We further analyze the dynamics of recursive attribution, showing that even a single recursive hop improves faithfulness by tracing importance through the reasoning chain.
- Abstract(参考訳): Token Attribution Methodは、因果的に重要な入力トークンを識別することで、言語モデル出力の直感的な説明を提供する。
しかしながら、現代のLCMはより拡張された推論連鎖に依存しているため、既存のスキームは2つの重要な課題に直面している:(1)効率のボトルネック、Nのコンテキスト内でMトークンのターゲットスパンを帰属させる場合、O(M*N)演算が必要であり、長文の帰属を禁断的に遅くする;(2)信頼度低下、(2)中間的推論トークンが帰属質量を吸収し、元の入力への伝播を阻害する。
これらの問題に対処するため,FlashTraceを導入し,信頼性を維持しつつ,多目的目標に対する寄与を1パスで計算するために,多目的アグリゲーションを用いた効率的な多目的属性手法を提案する。
さらに、中間的推論チェーンをソース入力に遡って重要度を辿る再帰帰帰帰帰帰的帰属機構を設計する。
長文検索(RULER)と多段階推論(MATH, MorehopQA)タスクの広範な実験は、FlashTraceが既存のベースラインよりも130倍以上のスピードアップを達成し、優れた忠実性を維持していることを示している。
さらに再帰的帰属のダイナミクスを解析し、単一の再帰的ホップでさえ、推論連鎖を通して重要度を辿ることで忠実性を向上させることを示した。
関連論文リスト
- Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - PathMind: A Retrieve-Prioritize-Reason Framework for Knowledge Graph Reasoning with Large Language Models [18.868091458925928]
提案するPathMindは,LLMを重要な推論経路で選択的に導くことによって,忠実かつ解釈可能な推論を強化するためのフレームワークである。
ベンチマークデータセットに関する大規模な実験は、PathMindが一貫して競争ベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-18T08:45:16Z) - Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。
本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。
実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文 参考訳(メタデータ) (2025-03-05T15:24:11Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。