論文の概要: Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents
- arxiv url: http://arxiv.org/abs/2509.03581v2
- Date: Tue, 30 Sep 2025 09:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.087799
- Title: Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents
- Title(参考訳): 計画のタイミングを学習する: LLMエージェントのテスト時間計算を効率よく割り当てる
- Authors: Davide Paglieri, Bartłomiej Cupiał, Jonathan Cook, Ulyana Piterbarg, Jens Tuyls, Edward Grefenstette, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel,
- Abstract要約: 強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
- 参考スコア(独自算出の注目度): 35.79575378215309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) to reason via reinforcement learning (RL) significantly improves their problem-solving capabilities. In agentic settings, existing methods like ReAct prompt LLMs to explicitly plan before every action; however, we demonstrate that always planning is computationally expensive and degrades performance on long-horizon tasks, while never planning further limits performance. To address this, we introduce a conceptual framework formalizing dynamic planning for LLM agents, enabling them to flexibly decide when to allocate test-time compute for planning. We propose a simple two-stage training pipeline: (1) supervised fine-tuning on diverse synthetic data to prime models for dynamic planning, and (2) RL to refine this capability in long-horizon environments. Experiments on the Crafter environment show that dynamic planning agents trained with this approach are more sample-efficient and consistently achieve more complex objectives. Additionally, we demonstrate that these agents can be effectively steered by human-written plans, surpassing their independent capabilities. To our knowledge, this work is the first to explore training LLM agents for dynamic test-time compute allocation in sequential decision-making tasks, paving the way for more efficient, adaptive, and controllable agentic systems.
- Abstract(参考訳): 強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
エージェント的な設定では、ReActのような既存のメソッドは、全てのアクションに先立って明示的に計画するように促しますが、常に計算コストがかかり、長い水平タスクのパフォーマンスが低下する一方で、それ以上の性能が制限されないことを実証します。
そこで我々は, LLMエージェントの動的計画を形式化する概念的枠組みを導入し, 計画のためのテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
本稿では,(1)多様な合成データを動的計画のための素モデルに微調整し,(2)RLを用いて長期の環境下でこれを改良する,簡単な2段階の訓練パイプラインを提案する。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
さらに、これらのエージェントは、人手による計画によって効果的に操縦でき、その独立した能力を超えることを実証する。
我々の知る限り、この研究は、シーケンシャルな意思決定タスクにおける動的テスト時間計算割当のためのLLMエージェントの訓練を初めて検討し、より効率的で適応的で制御可能なエージェントシステムへの道を開いた。
関連論文リスト
- Encouraging Good Processes Without the Need for Good Answers: Reinforcement Learning for LLM Agent Planning [6.314485350935057]
Reinforcement Learning with Tool-use Rewardsは、トレーニングプロセスを分離して、計画モジュールの集中的で単目的的な最適化を可能にする新しいフレームワークである。
実験の結果, RLTRは, エンド・ツー・エンドのベースラインに比べて, 計画性能が8%-12%向上していることがわかった。
この拡張計画能力は、結果として、全体のエージェントシステムの最終的な応答品質が5%-6%向上したことを意味する。
論文 参考訳(メタデータ) (2025-08-27T06:19:50Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Leveraging Pre-trained Large Language Models with Refined Prompting for Online Task and Motion Planning [24.797220935378057]
本稿では,事前学習型大規模言語モデル (LLM) によって支援された閉ループタスク計画・実行システム LLM-PAS を提案する。
タスク実行時の異常条件に対するLLM-PASの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2025-04-30T12:53:53Z) - MPO: Boosting LLM Agents with Meta Plan Optimization [37.35230659116656]
大規模言語モデル(LLM)により、エージェントは対話的な計画タスクにうまく取り組むことができる。
既存のアプローチは、しばしば幻覚の計画に悩まされ、新しいエージェントごとに再訓練を必要とする。
本稿では,明示的なガイダンスを直接組み込んでエージェント計画機能を向上させるメタプラン最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T14:54:45Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Zero-shot Robotic Manipulation with Language-guided Instruction and Formal Task Planning [16.89900521727246]
本稿では,言語誘導型シンボリックタスク計画(LM-SymOpt)フレームワークの最適化を提案する。
大規模言語モデルからの世界的知識と公式な推論を組み合わせた最初のエキスパートフリーな計画フレームワークです。
実験の結果,LM-SymOpt は既存の LLM ベースの計画手法よりも優れていた。
論文 参考訳(メタデータ) (2025-01-25T13:33:22Z) - AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation [81.32722475387364]
大規模言語モデルに基づくエージェントが注目され、ますます人気が高まっている。
計画能力は LLM ベースのエージェントの重要な構成要素であり、通常は初期状態から望ましい目標を達成する必要がある。
近年の研究では、専門家レベルの軌跡を指導訓練用LLMに活用することで、効果的に計画能力を向上させることが示されている。
論文 参考訳(メタデータ) (2024-08-01T17:59:46Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。