論文の概要: From Plan to Action: How Well Do Agents Follow the Plan?
- arxiv url: http://arxiv.org/abs/2604.12147v1
- Date: Mon, 13 Apr 2026 23:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.164919
- Title: From Plan to Action: How Well Do Agents Follow the Plan?
- Title(参考訳): 計画から行動へ:エージェントはどのように計画に従うのか?
- Authors: Shuyang Liu, Saman Dehghan, Jatin Ganhotra, Martin Hirzel, Reyhaneh Jabbarvand,
- Abstract要約: 本稿では,プログラムエージェントにおける計画遵守に関する最初の体系的分析について述べる。
SWE-bench Verified と SWE-bench Pro では,SWE-agent からSWE-agent への16,991 トラジェクトリを8種類のプランで検討した。
サブプランは、計画が全くない以上にパフォーマンスを損なう。
- 参考スコア(独自算出の注目度): 6.54753809716901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents aspire to eliminate the need for task-specific prompt crafting through autonomous reason-act-observe loops. Still, they are commonly instructed to follow a task-specific plan for guidance, e.g., to resolve software issues following phases for navigation, reproduction, patch, and validation. Unfortunately, it is unknown to what extent agents actually follow such instructed plans. Without such an analysis, determining the extent agents comply with a given plan, it is impossible to assess whether a solution was reached through correct strategic reasoning or through other means, e.g., data contamination or overfitting to a benchmark. This paper presents the first extensive, systematic analysis of plan compliance in programming agents, examining 16,991 trajectories from SWE-agent across four LLMs on SWE-bench Verified and SWE-bench Pro under eight plan variations. Without an explicit plan, agents fall back on workflows internalized during training, which are often incomplete, overfit, or inconsistently applied. Providing the standard plan improves issue resolution, and we observe that periodic plan reminders can mitigate plan violations and improve task success. A subpar plan hurts performance even more than no plan at all. Surprisingly, augmenting a plan with additional task-relevant phases in the early stage can degrade performance, particularly when these phases do not align with the model's internal problem-solving strategy. These findings highlight a research gap: fine-tuning paradigms that teach models to follow instructed plans, rather than encoding task-specific plans in them. This requires teaching models to reason and act adaptively, rather than memorizing workflows.
- Abstract(参考訳): エージェントは、自律的な理性保護ループを通じてタスク固有のプロンプトクラフトの必要性を排除することを目指している。
それでも、ナビゲーション、再生、パッチ、バリデーションのフェーズに続くソフトウェア問題を解決するために、ガイダンスのタスク固有の計画に従うように指示されることが一般的である。
残念なことに、エージェントが実際にそのような指示を受けた計画に従うかは不明だ。
このような分析がなければ、エージェントが与えられた計画に従う程度を決定することは不可能であり、正しい戦略的推論によって解が到達したかどうか、あるいは、例えば、データ汚染やベンチマークへの過度な適合といった他の手段によって評価することは不可能である。
本稿では,SWE-bench Verified と SWE-bench Pro の 4 つの LLM にまたがる SWE-agent から 16,991 のトラジェクトリを 8 つのプランで検討した。
明示的な計画がなければ、エージェントはトレーニング中に内部化されたワークフローにフォールバックする。
標準計画を提供することで課題解決が向上し、定期的な計画リマインダーが計画違反を軽減し、タスクの成功を改善できることを観察する。
サブプランは、計画が全くない以上にパフォーマンスを損なう。
驚くべきことに、初期の段階でタスク関連フェーズを追加することで、特にこれらのフェーズがモデルの内部の問題解決戦略と一致しない場合には、パフォーマンスが低下する可能性がある。
これらの発見は、タスク固有の計画を符号化するのではなく、モデルに指示された計画に従うように教える微調整パラダイムという、研究ギャップを浮き彫りにしている。
このためには、ワークフローを記憶するのではなく、モデルに推論と適応的な行動を教える必要があります。
関連論文リスト
- Planning Task Shielding: Detecting and Repairing Flaws in Planning Tasks through Turning them Unsolvable [5.343135467323389]
計画課題の欠陥を検知し,修復する問題である計画課題の遮蔽を導入する。
元のアクションを最小限に修正することでこれらのタスクを解決する最適なアルゴリズムである$allmin$を提案する。
大型化計画タスクの遮蔽における$allmin$の性能を実証的に評価した。
論文 参考訳(メタデータ) (2026-04-08T12:57:37Z) - PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving [66.42260489147617]
大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
論文 参考訳(メタデータ) (2025-07-10T07:30:44Z) - Hindsight Planner: A Closed-Loop Few-Shot Planner for Embodied Instruction Following [62.10809033451526]
本研究は,Large Language Models (LLM) を用いた Embodied Instruction following (EIF) タスクプランナの構築に焦点をあてる。
我々は,このタスクを部分観測可能なマルコフ決定プロセス (POMDP) として構成し,数発の仮定で頑健なプランナーの開発を目指す。
ALFREDデータセットに対する我々の実験は、プランナーが数ショットの仮定で競争性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-27T10:05:45Z) - GenPlan: Generative Sequence Models as Adaptive Planners [0.0]
シーケンスモデルは、以前に収集されたデモを活用することで、行動計画において顕著な成功を収めた。
しかし、特にプランナーが目に見えない制約やタスクに適応しなければならない場合、マルチタスクミッションの解決は重要な課題である。
本稿では,適応型プランナのための離散フローモデルGenPlanを提案する。
論文 参考訳(メタデータ) (2024-12-11T17:32:33Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - POMRL: No-Regret Learning-to-Plan with Increasing Horizons [43.693739167594295]
オンラインメタ強化学習環境におけるモデル不確実性の下での計画課題について検討する。
本稿では,タスク間の基盤構造をメタラーニングし,タスクごとの計画を立てるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-30T03:09:45Z) - Sequence-Based Plan Feasibility Prediction for Efficient Task and Motion
Planning [36.300564378022315]
本稿では,移動環境における移動操作問題を解決するための学習可能なタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを提案する。
本アルゴリズムのコアは,タスク計画,目標,初期状態を考慮したトランスフォーマーに基づく新しい学習手法であるPIGINetであり,タスク計画に関連する運動軌跡の発見確率を予測する。
論文 参考訳(メタデータ) (2022-11-03T04:12:04Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。