論文の概要: Internalizing LLM Reasoning via Discovery and Replay of Latent Actions
- arxiv url: http://arxiv.org/abs/2602.04925v1
- Date: Wed, 04 Feb 2026 08:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.547952
- Title: Internalizing LLM Reasoning via Discovery and Replay of Latent Actions
- Title(参考訳): 潜在行動の発見と再生によるLLM推論の内部化
- Authors: Zhenning Shi, Yijia Zhu, Junhan Shi, Xun Zhang, Lei Wang, Congcong Miao,
- Abstract要約: 連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れている。
動的潜在軌道制御問題として推論強化を再構築するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
- 参考スコア(独自算出の注目度): 4.830503861275364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The internalization of chain-of-thought processes into hidden states has emerged as a highly efficient paradigm for scaling test-time compute. However, existing activation steering methods rely on static control vectors that fail to adapt to the non-stationary evolution of complex reasoning tasks. To address this limitation, we propose STIR (Self-Distilled Tools for Internal Reasoning), a framework that reformulates reasoning enhancement as a dynamic latent trajectory control problem. STIR introduces a synergistic three-stage pipeline: (1) differential intrinsic action induction harvests latent reasoning successes to crystallize steering primitives; (2) sparse control basis construction curates a compact, geometrically diverse tool library; and (3) value-modulated trajectory intervention dynamically injects context-specific impulses via anchor-based gating. Extensive experiments on six arithmetic and logical benchmarks across four representative models demonstrate that STIR improves average accuracy by 1.9% to 7.5% while reducing average token consumption by up to 35% compared to vanilla decoding. These findings demonstrate that the benefits of explicit chain-of-thought can be realized through dynamic latent trajectory control, internalizing the reasoning process to bypass the explicit generation while achieving superior fidelity. Our code is available at https://github.com/sznnzs/LLM-Latent-Action.
- Abstract(参考訳): 連鎖プロセスの隠れ状態への内部化は、テスト時間計算をスケールするための非常に効率的なパラダイムとして現れています。
しかし、既存のアクティベーションステアリング法は、複雑な推論タスクの非定常進化に適応できない静的制御ベクトルに依存している。
この制限に対処するため、動的潜在軌道制御問題として推論強化を再構成するSTIR(Self-Distilled Tools for Internal Reasoning)を提案する。
STIRは1つの相乗的な3段階のパイプラインを導入する:(1) 微分内在的行動誘導は、操舵プリミティブの結晶化に成功し、(2) スパース制御基盤の構築は、コンパクトで幾何学的に多様なツールライブラリを硬化させ、(3) 値変調された軌道介入は、アンカーベースゲーティングを介して動的にコンテキスト特異的なインパルスを注入する。
4つの代表的なモデルの6つの算術的および論理的ベンチマークに関する大規模な実験は、STIRが平均精度を1.9%から7.5%改善し、バニラ復号よりも平均トークン消費量を35%削減したことを示している。
これらの結果から, 明示的連鎖の利点は動的潜在軌道制御によって実現でき, 推論過程を内部化し, 優れた忠実性を確保しつつ, 明示的生成を回避できることが示唆された。
私たちのコードはhttps://github.com/sznnzs/LLM-Latent-Actionで利用可能です。
関連論文リスト
- RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - DTRec: Learning Dynamic Reasoning Trajectories for Sequential Recommendation [19.181171482637513]
DTRecは,シークエンシャルレコメンデーションのための動的推論軌道を,方向と深さの両方に沿って探索する,新規かつ効果的なフレームワークである。
この方向を導くために,人間の認知過程の自然な,進歩的な洗練をエミュレートする粗大な監督信号を提供する階層的プロセススーパービジョン(HPS)を開発した。
この深さを最適化するために,3つの指標を共同で監視することにより,推論ステップの数を動的に調整するアダプティブ・推論・ハルティング(ARH)機構を導入する。
論文 参考訳(メタデータ) (2025-12-16T03:04:43Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。