論文の概要: Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.17770v2
- Date: Fri, 22 May 2026 15:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.68242
- Title: Entropy-Gradient Inversion: Moving Toward Internal Mechanism of Large Reasoning Models
- Title(参考訳): エントロピー勾配インバージョン:大共振モデルの内部メカニズムへ向けて
- Authors: Junyao Yang, Chen Qian, Kun Wang, Linfeng Zhang, Quanshi Zhang, Yong Liu, Dongrui Liu,
- Abstract要約: トークンエントロピーとロジット勾配の堅牢な相関関係であるtextbfEntropy-Gradient Inversion を同定し,正式に定義する。
我々は,この逆シグネチャを強化学習に組み込んだtextbfCorrelation-Regularized Group Policy Optimization (CorR-PO)を提案する。
複数のモデルスケールにわたる様々な推論ベンチマークの実験は、Corr-POが最先端のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 47.195670444638715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Large Reasoning Models (LRMs) has catalyzed a paradigm shift from reactive ``fast thinking'' text generation to systematic, step-by-step ``slow thinking'' reasoning, unlocking state-of-the-art performance in complex mathematical and logical tasks. However, the field faces \textit{the fundamental gap between token-level behavioral analysis and internal reasoning mechanisms, and the instability of reinforcement learning (RL) for reasoning optimization relying on costly external verifiers}. We identify and formally define \textbf{Entropy-Gradient Inversion}, a robust negative correlation between token entropy and logit gradients that acts as a definitive geometric fingerprint for LRM reasoning capability. Building on this, we propose \textbf{Correlation-Regularized Group Policy Optimization (CorR-PO)}, which embeds this inversion signature into RL reward regularization. Extensive experiments on various reasoning benchmarks across multiple model scales show CorR-PO consistently outperforms state-of-the-art baselines, confirming that stronger inversion directly correlates with superior reasoning performance.
- Abstract(参考訳): LRM(Large Reasoning Models)の進歩は、リアクティブな『高速思考』テキスト生成から体系的な『スロー思考』推論へのパラダイムシフトを触媒し、複雑な数学的および論理的なタスクにおける最先端のパフォーマンスを解き放つ。
しかし、フィールドはトークンレベルの行動分析と内部推論機構の基本的なギャップに直面し、高価な外部検証器に依存する推論最適化のための強化学習(RL)の不安定さに直面している。
トークンエントロピーとロジット勾配との間には強い負の相関関係があり, LRM推論能力の確定的な幾何学的指紋として機能する。
これに基づいて、この逆シグネチャをRL報酬正規化に組み込む、textbf{Correlation-Regularized Group Policy Optimization (CorR-PO)}を提案する。
複数のモデルスケールにわたる様々な推論ベンチマークに関する大規模な実験は、Corr-POが常に最先端のベースラインより優れており、強い反転は推論性能と直接相関していることを確認した。
関連論文リスト
- Inducing Overthink: Hierarchical Genetic Algorithm-based DoS Attack on Black-Box Large Language Reasoning Models [26.4508439363827]
大規模推論モデル(LRM)は、信頼性の高いマルチステップ推論を必要とするシステムにますます統合されている。
LRMは「過大な考え」を示す傾向があり、過度に長く冗長な推論の痕跡を生み出している。
入力問題の論理構造を体系的に摂動させることにより, LRMにおける過大な思考を誘発する自動ブラックボックスフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-13T10:57:10Z) - MSA-Thinker: Discrimination-Calibration Reasoning with Hint-Guided Reinforcement Learning for Multimodal Sentiment Analysis [5.1150258716324055]
マルチモーダル感情分析は、テキスト、聴覚、視覚のモダリティを統合することで人間の感情を理解することを目的としている。
CoT(Chain-of-Thought)推論を取り入れた既存の手法は、高いアノテーションコストによって妨げられる。
本研究では,Hintに基づく強化学習と構造化識別校正(DC)推論を統合した新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T12:48:41Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Directional Attractors in LLM Reasoning: How Similarity Retrieval Steers Iterative Summarization Based Reasoning [0.0]
InftyThink with Cross-Chain Memoryは、以前成功した推論パターンの埋め込みベースのセマンティックキャッシュで反復推論を強化する拡張である。
実験により、意味補題検索は、不均一なドメインを含むテストにおいて、障害モードを露呈しながら、構造化ドメインの精度を向上させることが示された。
論文 参考訳(メタデータ) (2025-12-22T00:26:54Z) - CogDoc: Towards Unified thinking in Documents [53.41571589733423]
本稿では,人間の認知過程を模倣する統一された粗大な思考枠組みを提案する: 情報ローカライゼーションのための低解像度の「Fast Reading」フェーズ,そして深い推論のための高解像度の「Focused Thinking」フェーズを提案する。
我々は、統合思考フレームワークの訓練後戦略を厳格に調査し、直接強化学習アプローチが監督微調整(SFT)でRLを上回ることを実証した。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
論文 参考訳(メタデータ) (2025-12-14T12:14:17Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。