論文の概要: Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
- arxiv url: http://arxiv.org/abs/2606.03965v1
- Date: Tue, 02 Jun 2026 17:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.233019
- Title: Agentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning
- Title(参考訳): 効率よく制御可能なLDM推論のためのエージェントチェーン・オブ・ソートステアリング
- Authors: Yu Xia, Zhouhang Xie, Xin Xu, Byungkyu Kang, Prarit Lamba, Xiang Gao, Julian McAuley,
- Abstract要約: 大規模言語モデルは、拡張チェーン・オブ・ソート推論により最終回答精度を向上させる。
既存の効率的な推論手法は、トレースの短縮、早期停止、圧縮によって思考長を制御する。
本稿では,マルコフ決定過程の推論を定式化したACTS(Agenic Chain-of-Thought Steering)を提案する。
- 参考スコア(独自算出の注目度): 27.851326399978394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models improve final-answer accuracy through extended chain-of-thought reasoning, but often spend tokens inefficiently and offer little inference-time control. Existing efficient reasoning methods control thinking length by shortening, early-stopping, or compressing traces, leaving how the model thinks implicit. In this paper, we propose Agentic Chain-of-Thought Steering (ACTS), which formulates reasoning steering as a Markov decision process where a controller agent adaptively steers a frozen reasoner during inference. At each step, the controller observes the reasoning trace and remaining thinking budget, then issues a steering action consisting of a reasoning strategy and a steering phrase that initiates the next reasoner step. This enables budget-aware strategy control for efficient reasoning while preserving the reasoner's generation continuity. We initialize the controller agent from our constructed synthetic steering trajectories with multi-budget augmentation, and further optimize it via reinforcement learning with budget-conditioned reward shaping. Experiments across multiple benchmarks show that ACTS matches full-thinking performance with substantial token savings, and enables controllable accuracy-efficiency trade-offs across different reasoners and tasks. The code is available at https://github.com/Andree-9/ACTS.
- Abstract(参考訳): 大規模言語モデルは、チェーンオブソート推論を拡張して最終回答精度を向上させるが、トークンを非効率に使用し、推論時の制御をほとんど提供しないことが多い。
既存の効率的な推論手法は、モデルがどのように暗黙的に考えるかを残しながら、トレースの短縮、早期停止、圧縮によって思考長を制御する。
本稿では,制御エージェントが推論中に凍結推論器を適応的に操るマルコフ決定過程として,操舵の推論を定式化するエージェント・チェーン・オブ・ソート・ステアリング(ACTS)を提案する。
各ステップにおいて、コントローラは、推論トレースと残りの思考予算を観察し、次に、推論戦略と、次の推論ステップを開始するステアリングフレーズからなるステアリングアクションを発行する。
これにより、推論者の生成継続性を維持しつつ、効率的な推論のための予算対応戦略制御が可能になる。
構成した合成ステアリングトラジェクトリから多予算増強によりコントローラエージェントを初期化し、予算条件付き報酬形成による強化学習によりさらに最適化する。
複数のベンチマークでの実験では、ACTSは十分なトークンセーブと完全なパフォーマンスを一致させ、異なる推論とタスク間で制御可能な精度効率のトレードオフを可能にしている。
コードはhttps://github.com/Andree-9/ACTSで公開されている。
関連論文リスト
- Dual-Track CoT: Budget-Aware Stepwise Guidance for Small LMs [0.3823356975862005]
小言語モデルは、厳密な計算とトークンの予算の下で、多段階の推論に苦しむ。
自己整合性のような既存のテスト時間推論手法ではパフォーマンスが向上するが、トークンコストが高く、ステップレベルの細かい制御ができないことが多い。
SLM(Small Language Models)は、同じまたは少ないトークンを確実に使用することができるか?
論文 参考訳(メタデータ) (2026-04-27T22:43:33Z) - Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking [25.69863022367215]
推論プロンプトはランキングユーティリティを向上させることができるが、その利点は一貫性がなく、かなりの計算コストがかかる。
本稿では, 直接推論 (Non-Think) と推論 (Think) を用いるかを決定するために, 軽量なプラグアンドプレイルータヘッドを用いた推論ルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-26T05:09:07Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Fast Thinking for Large Language Models [67.7238685892317]
我々は、訓練中にのみ簡潔なCoTスケッチを使用して個別戦略事前のコードブックを学習するフレームワークであるLatent Codebooks for Fast Thinkingを紹介した。
推論では、コードブックから抽出した少数の連続的思考スイッチのモデル条件を1パスにすることで、明確な推論トークンを生成することなく、戦略レベルのガイダンスを可能にする。
論文 参考訳(メタデータ) (2025-09-28T04:19:48Z) - SSPO: Self-traced Step-wise Preference Optimization for Process Supervision and Reasoning Compression [15.87106741558898]
後学習法は補助的なモデルや過度な考えのためにかなりの計算オーバーヘッドを発生させる。
本稿では,プラグインRLgableプロセス監視フレームワークであるSSPO(Self-traced Step-wise Preference Optimization)を提案する。
SSPOは、モデル自身が生成したステップワイズ優先信号を使用して、圧縮を推論するための最適化プロセスを導出する。
論文 参考訳(メタデータ) (2025-08-18T04:02:15Z) - From "Aha Moments" to Controllable Thinking: Toward Meta-Cognitive Reasoning in Large Reasoning Models via Decoupled Reasoning and Control [11.321315058502215]
大規模推論モデル(LRM)は、ステップバイステップの推論、リフレクション、バックトラッキングなどの認知行動を自発的に示すことで、複雑な推論の潜在能力を示した。
しかし、そのような創発的行動は規制されず、制御されていないままであり、しばしば過度に考え直され、モデルが信頼できる結論に達した後も冗長な推論内容を生成し続ける。
現在のモデルは、いつ継続するか、バックトラックするか、終了するかを決定するために、彼らの推論プロセスを監視し、適応的に管理できない。
我々はメタ認知推論フレームワーク(MERA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T13:59:17Z) - Adaptive Deep Reasoning: Triggering Deep Thinking When Needed [28.575411507835973]
大規模言語モデル(LLM)は、ロングチェーン推論による複雑なタスクの処理において、優れた機能を示している。
本稿では,問題複雑性に基づいて,短鎖と長鎖の推論チェーンを自律的に切り替える手法を提案する。
この進歩は、現実世界の応用のための大規模言語モデルにおける推論の実践性を高める。
論文 参考訳(メタデータ) (2025-05-26T15:08:51Z) - Let LRMs Break Free from Overthinking via Self-Braking Tuning [68.93713497579853]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。