論文の概要: Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.08369v1
- Date: Thu, 09 Apr 2026 15:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.999175
- Title: Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents
- Title(参考訳): LLMエージェントのフリーアダプティブ・コンピュテート信号としてのロールアウト・アクション・アグリーメント
- Authors: Khushal Sethi,
- Abstract要約: 大規模言語モデル(LLM)エージェントの信頼性向上のための強力な手法として,推論時計算スケーリングが登場している。
我々は、ロールアウト間動作合意を計測することで、エージェントタイムステップ間でLLMコールを適応的に割り当てる訓練不要のコントローラTrACEを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time compute scaling has emerged as a powerful technique for improving the reliability of large language model (LLM) agents, but existing methods apply compute uniformly: every decision step receives the same budget regardless of its difficulty. We introduce TrACE (Trajectorical Adaptive Compute via agrEement), a training-free controller that allocates LLM calls adaptively across agent timesteps by measuring inter-rollout action agreement. At each step, TrACE samples a small set of candidate next actions and measures how consistently the model commits to the same action. High agreement signals an easy decision; the controller commits immediately. Low agreement signals uncertainty; the controller samples additional rollouts up to a configurable cap before committing to the plurality action. No learned components, no external verifier, and no human labels are required. We evaluate TrACE against greedy decoding and fixed-budget self-consistency (SC-4, SC-8) on two benchmarks spanning single-step reasoning (GSM8K, n=50) and multi-step household navigation (MiniHouse, n=30), using a Qwen 2.5 3B Instruct model running on CPU. TrACE-4 matches SC-4 accuracy while using 33% fewer LLM calls on GSM8K and 39% fewer on MiniHouse. TrACE-8 matches SC-8 accuracy with 55% fewer calls on GSM8K and 65% fewer on MiniHouse. We further show that inter-rollout agreement is a reliable signal of step-level success, validating the core hypothesis that the model's own output consistency encodes difficulty information that can be exploited without training. TrACE is the first training-free, per-timestep adaptive-compute controller for LLM agents to be evaluated on multi-step sequential decision tasks.
- Abstract(参考訳): 推論時間計算のスケーリングは,大規模言語モデル(LLM)エージェントの信頼性向上のための強力な手法として登場したが,既存の手法が一様に適用されている。
AgrEementによるTrACE (Trajectorical Adaptive Compute via agrEement) は、ロールアウト間動作合意を計測することで、エージェントのタイムステップ間でLSMコールを適応的に割り当てる訓練不要のコントローラである。
各ステップでTrACEは、候補となる次のアクションの小さなセットをサンプリングし、モデルが同じアクションにいかに一貫してコミットするかを測定する。
高い合意は簡単な決定であり、コントローラはすぐにコミットする。
コントローラは、複数のアクションにコミットする前に、設定可能な上限まで追加のロールアウトをサンプリングする。
学習したコンポーネントも外部検証器も人間ラベルも必要ない。
我々は,CPU上で動作するQwen 2.5 3Bインストラクトモデルを用いて,シングルステップ推論(GSM8K, n=50)とマルチステップホームナビゲーション(MiniHouse, n=30)にまたがる2つのベンチマークにおいて,グリージーデコーディングと固定予算自己整合性(SC-4, SC-8)に対するTrACEの評価を行った。
TrACE-4 は SC-4 の精度と一致し、GSM8K での LLM 呼び出しは 33% 、MiniHouse では 39% 削減された。
TrACE-8はSC-8の精度と一致し、GSM8Kの呼び出しは55%、MiniHouseの呼び出しは65%減少した。
さらに、ロールアウト合意がステップレベルの成功の確実なシグナルであることを示し、モデルの出力一貫性がトレーニングなしで活用できる難易度情報を符号化するというコア仮説を検証する。
TrACEは、マルチステップシーケンシャル決定タスクで評価されるLDMエージェントのための、トレーニング不要で、時間単位の適応計算コントローラである。
関連論文リスト
- Minimal Information Control Invariance via Vector Quantization [2.094349987888854]
我々は,サンプルデータ制御の下で,コンパクトな前方不変量を描画するために,何個の異なる制御信号が必要であるかを検討する。
状態空間分割と有限制御符号ブックを共同で学習するベクトル量子化オートエンコーダを提案する。
安全操作と互換性のある最小感度分解能を実証的に特徴付ける。
論文 参考訳(メタデータ) (2026-04-03T15:53:07Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Adaptive Reinforcement and Model Predictive Control Switching for Safe Human-Robot Cooperative Navigation [10.614812216110673]
本稿では,近接制御と安全制約の同時実施による移動ロボットの人間誘導ナビゲーションの課題について論じる。
本稿では,ハイブリッド学習制御フレームワークであるAdaptive Reinforcement and Model Predictive Control Switching (ARMS)を紹介する。
乱雑な環境でARMSが82.5パーセントの成功率を達成することを示す。
論文 参考訳(メタデータ) (2026-01-23T12:02:18Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。