論文の概要: Integrated and Cross-Architecture Interpretation of LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.28006v1
- Date: Wed, 27 May 2026 05:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.786227
- Title: Integrated and Cross-Architecture Interpretation of LLM Reasoning
- Title(参考訳): LLM推論の総合的・横断的解釈
- Authors: Leonardo Matthew Yauw, Wei-Bin Kou, Yujiu Yang,
- Abstract要約: 統合されたクロスアーキテクチャ推論(IAR)フレームワークは、LLM推論の解釈可能性に対する統一的なアプローチを提供するように設計されている。
まず、チューキーIQRピーク検出と組み合わされた帯域幅校正MIPを用いて、出力層における推論・クラシカルトークンを分離することを提案する。
次に、MIP-pickedトークンと計算深度トークンの重なり解析を行い、それらのトークンの層間軌跡をトレースする。
- 参考スコア(独自算出の注目度): 48.58940522466915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how LLMs reason is hindered by a practical asymmetry: while their generated outputs are observable, the underlying reasoning patterns remain opaque. Relying on single probes, such as Mutual Information Peak (MIP) or Deep-Thinking Ratio (DTR), risks underestimating the genuine inferential structure. To response this deficiency, we present an Integrated, cross-Architecture Reasoning (IAR) framework, designed to provide a unified approach to LLM reasoning interpretability. Specifically, we first propose to use bandwidth-calibrated MIP coupled with Tukey IQR peak-detection to isolate reasoning-crucial tokens at the output layer. Second, we performed an overlap analysis between MIP-picked tokens and DTR-deep tokens to trace the cross-layer trajectories of those tokens. This also discloses whether reasoning-crucial tokens are computation-intensive as well, further facilitating to understand how reasoning patterns evolve across model layers. Finally, we apply a Jaccard stability metric over multi-domain problems to verify if the MIP-identified tokens are reasoning quality-guaranteed. Extensive experiments on three models (Qwen-7B, Qwen-14B, and Llama-8B) across four domains (mathematics, code, logic, and common sense) demonstrate IAR's generalizable interpretation capabilities across architectures.
- Abstract(参考訳): LLMの推論が実際的な非対称性によってどのように妨げられるかを理解する: 生成された出力は観測可能であるが、基礎となる推論パターンは不透明である。
MIP(Mutual Information Peak)やDTR(Deep-Thinking Ratio)のような単一のプローブを利用すると、真の推論構造を過小評価するリスクがある。
この欠陥に対応するために,我々は,LLM推論の解釈可能性に対する統一的なアプローチを提供するために,統合的・クロスアーキテクチャ推論(IAR)フレームワークを提案する。
具体的には、まず帯域幅校正MIPとTukey IQRのピーク検出を併用して、出力層における推論・クラシカルトークンを分離することを提案する。
次に,MIP-pickedトークンとDTR-deepトークンの重なり解析を行い,これらのトークンの層間軌跡の追跡を行った。
これはまた、推論-クラシカルトークンが計算集約的であるかどうかを明らかにし、モデル層間での推論パターンの進化をより容易にする。
最後に,マルチドメイン問題に対してJaccardの安定性基準を適用し,MIP識別トークンが品質保証の理由であるかどうかを検証する。
Qwen-7B、Qwen-14B、Llama-8Bの4つの領域(数学、コード、論理、常識)にわたる3つのモデルの大規模な実験は、IARのアーキテクチャ全体にわたる一般化可能な解釈能力を示している。
関連論文リスト
- TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens [32.700228795574255]
TTE-Flash-2Bは,MMEB-v2ベンチマークにおいて,その明示的なCoTよりも優れたマルチモーダル表現モデルである。
本研究では,1)LLMバックボーンからトークンの考え方と埋め込みを抽出する方法,2)トークンを2つの依存タスクとしてトレーニングする方法,の2つの重要なアーキテクチャ設計について検討する。
論文 参考訳(メタデータ) (2026-05-15T21:10:56Z) - Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。
我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。
我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文 参考訳(メタデータ) (2025-09-25T14:11:57Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。