論文の概要: PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement
- arxiv url: http://arxiv.org/abs/2605.11225v1
- Date: Mon, 11 May 2026 20:43:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.418931
- Title: PIVOT: Bridging Planning and Execution in LLM Agents via Trajectory Refinement
- Title(参考訳): PIVOT: トラジェクティブリファインメントによるLCMエージェントのブリッジ計画と実行
- Authors: Tuo Zhang, Alin-Ionut Popa, Yan Xu, Rui Song, Dimitrios Dimitriadis,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、実行時に失敗するように見える一貫性のある計画を生成する。
PIVOTは、トラジェクトリを最適化可能なオブジェクトとして、環境相互作用を通じて反復的に洗練する自己管理フレームワークを通じて、この計画実行ミスアライメントに対処する。
- 参考スコア(独自算出の注目度): 22.285969725581044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents frequently generate seemingly coherent plans that fail upon execution due to infeasible actions, constraint violations, and compounding errors over extended horizons. PIVOT (Plan-Inspect-eVOlve Trajectories) addresses this plan-execution misalignment through a self-supervised framework that treats trajectories as optimizable objects iteratively refined via environment interaction. The framework comprises four stages: PLAN generates candidate trajectories; INSPECT executes them and computes structured losses with textual gradients encoding plan-execution discrepancies; EVOLVE applies these signals to produce improved trajectories; and VERIFY performs a final global check against task constraints. A monotonic acceptance process ensures a non-decreasing solution quality. Empirical evaluations on DeepPlanning and GAIA demonstrate state-of-the-art performance: with human-in-the-loop (HITL) feedback, PIVOT establishes a strong upper bound up to 94% relative improvement in constraint satisfaction, while its fully autonomous variant retains substantial gains, showing that the core trajectory-refinement mechanism remains effective without external supervision. At the same time, PIVOT remains computationally efficient, requiring up to 3x to 5x fewer tokens than competing refinement methods. These findings establish that (self- or human-supervised) feedback-based trajectory optimization is a principled methodology for mitigating plan-execution gaps in autonomous agent systems.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、実行時に失敗するように見える一貫性のあるプランをしばしば生成する。
PIVOT(Plan-Inspect-eVOlve Trajectories)は、トラジェクトリを環境相互作用を通じて反復的に洗練される最適化可能なオブジェクトとして扱う自己管理フレームワークを通じて、この計画実行の不整合に対処する。
このフレームワークは4つの段階から構成される: PLANは候補軌道を生成する; INSPECTはそれらを実行し、計画実行の差異を符号化するテキスト勾配で構造化された損失を計算する;EVOLVEはこれらの信号を応用して改良された軌道を生成する;VERIFYはタスク制約に対する最終的なグローバルチェックを実行する。
単調な受容プロセスは、非減少性ソリューションの品質を保証する。
DeepPlanningとGAIAに関する実証的な評価では、Human-in-the-loop (HITL)フィードバックにより、PIVOTは制約満足度を最大94%向上させる強い上限を確立し、完全な自律型は実質的な利得を維持し、中核の軌道制限機構が外部の監督なしに有効であることを示す。
同時に、PIVOTは計算効率を保ち、競合する精錬法よりも最大3倍から5倍少ないトークンを必要とする。
これらの結果は、自律エージェントシステムにおける計画実行ギャップを軽減するための(自己または人間による)フィードバックに基づく軌道最適化が原則的手法であることを示す。
関連論文リスト
- AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving [51.268878540511054]
我々は階層的拡散政策を備えたエンドツーエンドの計画フレームワークであるHADを提案する。
我々は,NAVSIMとHUGSIMの両方でHADが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-04-04T04:12:47Z) - dTRPO: Trajectory Reduction in Policy Optimization of Diffusion Large Language Models [71.26391195427878]
拡散大言語モデル(dLLM)は、言語生成の新しいパラダイムを導入する。
本研究は,軌道確率計算のコストを削減し,dLLMのポリシー最適化を改善することを目的とする。
我々は、7B dLLMのdTRPOを命令追従と推論のベンチマークで評価した。
論文 参考訳(メタデータ) (2026-03-19T11:55:52Z) - Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments [38.97818584066075]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、長期にわたる人間のインタラクションから複雑な推論を学ぶためのエージェントである。
現在のトレーニングパラダイムは、一般化能力、エラー回復、トレーニング安定性のバランスをとるのに苦労しています。
本稿では,不完全な軌跡から厳密な監視を抽出するためのフレームワークである,ステップアウェアコントラストアライメント(SACA)を紹介する。
論文 参考訳(メタデータ) (2026-03-10T14:45:50Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Plan, Verify and Fill: A Structured Parallel Decoding Approach for Diffusion Language Models [26.195809569100774]
Plan-Verify-Fill(PVF)は、定量的検証を通じて計画を立てるトレーニングフリーのパラダイムである。
PVFは、高平均セマンティックアンカーを優先順位付けすることで、階層的な骨格を積極的に構築する。
信頼性ベースの並列デコーディングと比較して、NFE(Number of Evaluation Function)を最大65%削減する。
論文 参考訳(メタデータ) (2026-01-18T03:53:01Z) - Plan Verification for LLM-Based Embodied Task Completion Agents [10.439882851477162]
大規模言語モデル(LLM)に基づくタスク計画とそれに対応するAIの人間による実演は騒々しいかもしれない。
審査員が行動系列を批判し、プランナーLLMが修正を適用する反復検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-02T19:06:56Z) - Self-Corrective Task Planning by Inverse Prompting with Large Language Models [9.283971287618261]
InversePromptは,新しい自己修正型タスクプランニング手法である。
提案手法は、明確な解釈可能なフィードバックを提供するための推論ステップを組み込んだものである。
ベンチマークデータセットの結果は、既存のLCMベースのタスク計画手法よりも平均16.3%高い成功率を示している。
論文 参考訳(メタデータ) (2025-03-10T13:35:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。