論文の概要: Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient
- arxiv url: http://arxiv.org/abs/2602.02313v2
- Date: Tue, 03 Feb 2026 16:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.873863
- Title: Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient
- Title(参考訳): 統合政策勾配によるLLM推論の解釈と制御
- Authors: Changming Li, Kaixing Zhang, Haoyun Xu, Yingdong Shi, Zheng Zhang, Kaitao Song, Kan Ren,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な現実世界の問題を解く上で強力な推論能力を示す。
複雑な推論行動を引き起こす 内部メカニズムは いまだ不透明です
モデルの内部コンポーネントに推論の振る舞いを属性付ける新しいフレームワークである統合ポリシーグラディエント(IPG)を提案する。
- 参考スコア(独自算出の注目度): 27.26870804635122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate strong reasoning abilities in solving complex real-world problems. Yet, the internal mechanisms driving these complex reasoning behaviors remain opaque. Existing interpretability approaches targeting reasoning either identify components (e.g., neurons) correlated with special textual patterns, or rely on human-annotated contrastive pairs to derive control vectors. Consequently, current methods struggle to precisely localize complex reasoning mechanisms or capture sequential influence from model internal workings to the reasoning outputs. In this paper, built on outcome-oriented and sequential-influence-aware principles, we focus on identifying components that have sequential contribution to reasoning behavior where outcomes are cumulated by long-range effects. We propose Integrated Policy Gradient (IPG), a novel framework that attributes reasoning behaviors to model's inner components by propagating compound outcome-based signals such as post reasoning accuracy backward through model inference trajectories. Empirical evaluations demonstrate that our approach achieves more precise localization and enables reliable modulation of reasoning behaviors (e.g., reasoning capability, reasoning strength) across diverse reasoning models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な現実世界の問題を解く上で強力な推論能力を示す。
しかし、これらの複雑な推論行動を引き起こす内部メカニズムはいまだ不透明である。
既存の解釈可能性アプローチは、特定のテキストパターンと相関するコンポーネント(例えばニューロン)を特定するか、あるいは制御ベクトルを導出するために人間に注釈を付けたコントラストペアに依存する。
その結果、現在の手法は複雑な推論機構を正確にローカライズしたり、モデル内部の作業から推論出力へのシーケンシャルな影響を捉えるのに苦労している。
本稿では, 結果指向および逐次的影響を意識した原理に基づいて, 結果が長距離効果によって累積される推論行動に逐次寄与する成分の同定に焦点をあてる。
Integrated Policy Gradient (IPG) は、モデル推論軌跡を通した後推論精度などの複合結果に基づく信号を伝播させることにより、モデル内コンポーネントに対する推論動作を特徴付ける新しいフレームワークである。
実験により,本手法はより正確な局所化を実現し,多種多様な推論モデル間での推論行動(例えば,推論能力,推論強度)の信頼性調節を可能にすることを示す。
関連論文リスト
- Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。
GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。
本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:58:18Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Calibrating Reasoning in Language Models with Internal Consistency [18.24350001344488]
大規模言語モデル(LLM)は、様々な推論タスクにおいて印象的な機能を示している。
LLMは、しばしば明らかな誤りと矛盾のあるテキストを生成する。
本研究では,LLMにおける内部表現のレンズによる推論について検討する。
論文 参考訳(メタデータ) (2024-05-29T02:44:12Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Estimating the Causal Effects of Natural Logic Features in Transformer-Based NLI Models [16.328341121232484]
文脈介入の効果を測定するために因果効果推定手法を適用した。
本研究はトランスフォーマーの無関係な変化に対する堅牢性と影響の高い変化に対する感受性について検討する。
論文 参考訳(メタデータ) (2024-04-03T10:22:35Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。