論文の概要: TodoEvolve: Learning to Architect Agent Planning Systems
- arxiv url: http://arxiv.org/abs/2602.07839v1
- Date: Sun, 08 Feb 2026 06:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.82724
- Title: TodoEvolve: Learning to Architect Agent Planning Systems
- Title(参考訳): TodoEvolve: エージェント計画システムの設計を学ぶ
- Authors: Jiaxi Liu, Yanzuo Jiang, Guibin Zhang, Zihan Zhang, Heng Chang, Zhenfei Yin, Qibing Ren, Junchi Yan,
- Abstract要約: TodoEvolveは、タスク固有の計画を自律的に合成し、動的に修正するメタプランニングパラダイムである。
PlanFactoryは異種計画パターンの共通インターフェースを提供する。
TodoEvolveは、経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っている。
- 参考スコア(独自算出の注目度): 68.48983335970901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning has become a central capability for contemporary agent systems in navigating complex, long-horizon tasks, yet existing approaches predominantly rely on fixed, hand-crafted planning structures that lack the flexibility to adapt to the structural diversity of open-ended problems. To address this limitation, we introduce TodoEvolve, a meta-planning paradigm that autonomously synthesizes and dynamically revises task-specific planning architectures. Specifically, we first construct PlanFactory, a modular design space that standardizes diverse planning paradigms within a unified codebase encompassing topology, initialization, adaptation, and navigation, thereby providing a common interface for heterogeneous planning patterns. Leveraging PlanFactory, we collect high-quality planning trajectories and train Todo-14B via \textit{Impedance-Guided Preference Optimization} (IGPO), a multi-objective reinforcement learning objective that encourages the generation of planning systems that are performant, stable, and token-efficient across arbitrary tasks and agent backbones. Empirical evaluations on five agentic benchmarks demonstrate that TodoEvolve consistently surpasses carefully engineered planning modules while maintaining economical API costs and runtime overhead.
- Abstract(参考訳): 計画は、複雑で長期にわたるタスクをナビゲートする現代のエージェントシステムの中心的能力となっているが、既存のアプローチは主に、オープンエンド問題の構造的多様性に適応する柔軟性に欠ける固定された手作りの計画構造に依存している。
この制限に対処するために,タスク固有の計画アーキテクチャを自律的に合成し動的に改訂するメタプランニングパラダイムであるTodoEvolveを紹介する。
具体的には、まず、トポロジ、初期化、適応、ナビゲーションを含む統一コードベース内で多様な計画パラダイムを標準化するモジュール設計空間であるPlanFactoryを構築し、不均一な計画パターンの共通インターフェースを提供する。
PlanFactoryを活用することで、高品質な計画トラジェクトリを収集し、任意のタスクやエージェントのバックボーン間で実行可能で安定的でトークン効率の高い計画システムの生成を促進する多目的強化学習目標である \textit{Impedance-Guided Preference Optimization} (IGPO) を介してTodo-14Bを訓練する。
5つのエージェントベンチマークに関する実証的な評価は、TodoEvolveが経済的なAPIコストとランタイムオーバーヘッドを維持しながら、慎重に設計された計画モジュールを一貫して上回っていることを示している。
関連論文リスト
- Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z) - Multi-tier Automated Planning for Adaptive Behavior (Extended Version) [0.4129225533930965]
本稿では,異なる仮定セットの仕様を計画するための多層フレームワークを提案する。
非決定論的計画形式への簡潔なコンパイルによる問題インスタンスの解法を示す。
論文 参考訳(メタデータ) (2020-02-27T21:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。