論文の概要: Adaptive Latent Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2606.02871v1
- Date: Mon, 01 Jun 2026 20:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.595571
- Title: Adaptive Latent Agentic Reasoning
- Title(参考訳): Adaptive Latent Agentic Reasoning
- Authors: Dongwon Jung, Peng Shi, Yi Zhang, Junshan Zhang, Muhao Chen,
- Abstract要約: 本稿では,日常的な旋回にコンパクトな潜伏推論を用い,より深い熟考が必要な場合の明示的な連鎖に選択的にエスカレートするデュアルモードフレームワークを提案する。
実験の結果、ALARは同等またはより良いタスク精度を維持し、生成したトークンを検索で43.6%、ツールでの使用で84.6%まで大幅に削減した。
- 参考スコア(独自算出の注目度): 39.07611240604954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models improve performance by generating extended chain-of-thought (CoT) reasoning, but this behavior becomes inefficient when applied to LLM agents. Current LLM agents often generate verbose textual reasoning at every decision step and allocate reasoning effort nearly uniformly across turns, leading to substantial inefficiency in multi-turn agentic trajectories. We propose Adaptive Latent Agentic Reasoning (ALAR), a dual-mode framework that uses compact latent reasoning for routine turns and selectively escalates to explicit chain-of-thought when deeper deliberation is needed. ALAR learns latent reasoning by using the agent's actions as supervision anchors and is further optimized to use latent reasoning when it is sufficient for task success and reserve explicit CoT for harder decisions. Experiments on agentic search and tool-use benchmarks show that ALAR maintains comparable or better task accuracy while substantially reducing generated tokens by up to 43.6% in search and 84.6% in tool use. These results demonstrate that ALAR improves the accuracy-efficiency trade-off of LLM agents by reducing unnecessary textual reasoning while preserving explicit deliberation for harder decision steps.
- Abstract(参考訳): 大きな推論モデルは、拡張チェーン・オブ・ソート(CoT)推論を生成することで性能を向上させるが、LLMエージェントに適用すると、この挙動は非効率になる。
現在のLLMエージェントは、各決定ステップで冗長なテキスト推論を生成し、ほぼ一様に各ターンにわたって推論を割り当てる。
本稿では, 適応潜在エージェント推論(ALAR)を提案する。これは2モードのフレームワークで, ルーチンのターンにコンパクト潜時推論を用い, より深い検討が必要なとき, 明示的なチェーン・オブ・シークレットに選択的にエスカレートする。
ALARはエージェントのアクションを監督アンカーとして使用することで潜時推論を学習し、タスクの成功に十分である場合に潜時推論の使用をさらに最適化し、より難しい決定のために明示的なCoTを予約する。
エージェント検索とツール使用ベンチマークの実験では、ALARは同等またはより良いタスク精度を維持し、生成したトークンを検索で43.6%、ツールでの使用で84.6%削減している。
これらの結果から,ALAR は LLM エージェントの精度・効率トレードオフを改善し,不必要なテキスト推論を減らし,決定手順の明確化を図っている。
関連論文リスト
- AgentV-RL: Scaling Reward Modeling with Agentic Verifier [63.55502685076245]
試験時間スケーリング(TTS)によるLCM推論を強化する検証器が実証されている。
本稿では,報酬モデリングを多ターンツール拡張型検討プロセスに変換するフレームワークであるエージェント検証を提案する。
Agentic Verifier は並列およびシーケンシャルTS の両方で一貫した性能向上が得られることを示す。
論文 参考訳(メタデータ) (2026-04-17T12:27:36Z) - AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents [37.232397795331444]
我々は,エージェント実行中に異なる推論能力を持つモデルを動的にコーディネートする,自己駆動型協調推論フレームワークであるAgenCollabを提案する。
外部ルーティングモジュールに頼る代わりに、このフレームワークはエージェント自身の自己反射信号を使用して、現在の推論軌道が有意義な進歩を遂げているかどうかを判断する。
論文 参考訳(メタデータ) (2026-03-27T03:07:34Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Reinforced Efficient Reasoning via Semantically Diverse Exploration [73.41112984160992]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論の強化に有効であることが証明された。
本研究では,LLMのための意味的多様性探索,すなわちROSEによる効率的な推論手法を提案する。
本手法は,意味エントロピーに基づく分岐戦略と$varepsilon$-exploration機構を組み込んだものである。
論文 参考訳(メタデータ) (2026-01-08T15:56:44Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。