論文の概要: Efficient Agentic Reasoning Through Self-Regulated Simulative Planning
- arxiv url: http://arxiv.org/abs/2605.22138v1
- Date: Thu, 21 May 2026 08:11:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.154044
- Title: Efficient Agentic Reasoning Through Self-Regulated Simulative Planning
- Title(参考訳): 自己制御型シミュレーション計画による効率的なエージェント推論
- Authors: Mingkai Deng, Jinyu Hou, Lara Sá Neves, Varad Pimpalkhute, Taylor W. Killian, Zhengzhong Liu, Eric P. Xing,
- Abstract要約: 意思決定による効果的なエージェント的メリットを3つのシステムに分けて論じる。
自己統制(Self-regulation)は、エージェントが自身の学習と適応をどのように管理するかの計画を超えて、私たちが期待する原則をインスタンス化する。
- 参考スコア(独自算出の注目度): 31.8332191338687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How should an agent decide when and how to plan? A dominant approach builds agents as reactive policies with adaptive computation (e.g., chain-of-thought), trained end-to-end expecting planning to emerge implicitly. Without control over the presence, structure, or horizon of planning, these systems dramatically increase reasoning length, yielding inefficient token use without reliable accuracy gains. We argue efficient agentic reasoning benefits from decomposing decision-making into three systems: simulative reasoning (System II) grounding deliberation in future-state prediction via a world model; self-regulation (System III) deciding when and how deeply to plan via a learned configurator; and reactive execution (System I) handling fine-grained action. Simulative reasoning provides unified planning across diverse tasks without per-domain engineering, while self-regulation ensures the planner is invoked only when needed. To test this, we develop SR$^2$AM (Self-Regulated Simulative Reasoning Agentic LLM), realizing both as distinct stages within an LLM's chain-of-thought, with the LLM as world model. We explore two instantiations: recording decisions from a prompted multi-module system (v0.1) and reconstructing structured plans from traces of pretrained reasoning LLMs (v1.0), trained via supervised then reinforcement learning (RL). Across math, science, tabular analysis, and web information seeking, v0.1-8B and v1.0-30B achieve Pass@1 competitive with 120-355B and 685B-1T parameter systems respectively, while v1.0-30B uses 25.8-95.3% fewer reasoning tokens than comparable agentic LLMs. RL increases average planning horizon by 22.8% while planning frequency grows only 2.0%, showing it learns to plan further ahead rather than more often. More broadly, learned self-regulation instantiates a principle we expect to extend beyond planning to how agents govern their own learning and adaptation.
- Abstract(参考訳): エージェントはいつ、どのように計画するか決めるべきですか。
主流のアプローチは、適応的な計算(例えば、チェーン・オブ・プリート)でエージェントをリアクティブなポリシーとして構築し、訓練されたエンドツーエンドの計画が暗黙的に現れることを期待する。
計画の存在、構造、地平線を制御せずに、これらのシステムは推論の長さを劇的に増加させ、信頼性の高い利得のない非効率なトークンの使用をもたらす。
シミュレーション推論(システムII)は、世界モデルによる将来の状態予測の議論を基礎として、自己規制(システムIII)は、学習したコンフィグレータによる計画の時期と深さを判断し、リアクティブ実行(システムI)はきめ細かなアクションを扱う。
シミュレーション推論はドメイン単位のエンジニアリングを使わずに、さまざまなタスクに統一的な計画を提供する。
これをテストするために,SR$^2$AM (Self-Regulated Simulative Reasoning Agentic LLM) を開発した。
誘導型マルチモジュールシステム(v0.1)からの決定を録音し、事前学習したLLM(v1.0)の痕跡から構造化されたプランを再構築し、教師あり強化学習(RL)を通して学習する。
v0.1-8Bとv1.0-30Bはそれぞれ120-355Bと685B-1Tのパラメータシステムと競合し、v1.0-30Bは25.8-95.3%の推論トークンを使用する。
RLは平均的な計画の地平線を22.8%増加させ、計画の頻度は2.0%しか増加していない。
より広範に、学習した自己統制は、エージェントが自身の学習と適応をどのように管理するかを計画を超えて拡張するであろう原則をインスタンス化する。
関連論文リスト
- Agentic LLM Planning via Step-Wise PDDL Simulation: An Empirical Characterisation [1.2832858109291982]
大型言語モデル(LLM)は、古典的なシンボリックな手法と共に実行可能なプランナーとして機能する。
本稿では,オープンソースの計画ドメイン定義言語(PDDL)シミュレーションエンジンであるPyPDDLEngineを紹介する。
102国際計画コンペティション(IPC)Blocksworldインスタンスに対して,一様180秒の予算で4つのアプローチを評価する。
論文 参考訳(メタデータ) (2026-03-06T09:16:49Z) - rSIM: Incentivizing Reasoning Capabilities of LLMs via Reinforced Strategy Injection [49.74493901036598]
大規模言語モデル(LLM)は強化学習(RL)を通して後訓練され、推論言語モデル(RLM)へと進化する。
本稿では, 小型プランナを用いることで, LLM を RLM にすることができる新規な強化戦略注入機構 (rSIM) を提案する。
実験結果から、rSIMによりQwen2.5-0.5BはRLMとなり、Qwen2.5-14Bより大幅に優れていた。
論文 参考訳(メタデータ) (2025-12-09T06:55:39Z) - Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail [85.47497935739936]
Alpamayo-R1 (AR1) は、因果推論の連鎖と軌道計画を統合する視覚言語モデルである。
また,AR1は,軌道のみのベースラインに比べて,難問の計画精度が12%向上することを示した。
今後のアップデートで、AR1モデルとCoCのサブセットをリリースする予定です。
論文 参考訳(メタデータ) (2025-10-30T01:25:34Z) - Teaching LLMs to Plan: Logical Chain-of-Thought Instruction Tuning for Symbolic Planning [23.185497225384207]
大規模言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、構造化されたシンボリックプランニングを実行する能力はまだ限られている。
論理的連鎖推論によりLLMのシンボリックプランニング能力を高めるために設計された新しい命令チューニングフレームワークPDDL-Instructを提案する。
論文 参考訳(メタデータ) (2025-09-14T02:42:34Z) - Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents [35.79575378215309]
強化学習(RL)による推論のための大規模言語モデル(LLM)の訓練は,その問題解決能力を大幅に向上させる。
LLMエージェントの動的計画を形式化する概念的枠組みを導入し、計画にテスト時間計算をいつ割り当てるかを柔軟に決定できるようにする。
Crafter環境での実験は、このアプローチでトレーニングされた動的計画エージェントがよりサンプリング効率が高く、より複雑な目標を一貫して達成していることを示している。
論文 参考訳(メタデータ) (2025-09-03T18:00:13Z) - Planning in Strawberry Fields: Evaluating and Improving the Planning and Scheduling Capabilities of LRM o1 [15.863162558281616]
我々は,2つのLEM(o1-previewとo1-mini)の計画能力について,計画とスケジューリングのベンチマークで評価した。
LRM-Moduloシステムでは,o1モデルを外部検証器と組み合わせることで,システム出力の正しさが保証される。
論文 参考訳(メタデータ) (2024-10-03T03:04:36Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。