論文の概要: CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
- arxiv url: http://arxiv.org/abs/2512.10342v1
- Date: Thu, 11 Dec 2025 06:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.230803
- Title: CoSPlan: Corrective Sequential Planning via Scene Graph Incremental Updates
- Title(参考訳): CoSPlan: シーングラフインクリメンタルアップデートによる修正シーケンスプランニング
- Authors: Shresth Grover, Priyank Pathak, Akash Kumar, Vibhav Vineet, Yogesh S Rawat,
- Abstract要約: 本稿では,初期状態と目標状態の間の中間的推論ステップを導入したSGI(Scene Graph Incremental Update)を提案する。
シーケンシャルプランニングにおける信頼性の向上に加えて、SGIはPlan-BenchやVQAといった従来のプランニングタスクに一般化している。
- 参考スコア(独自算出の注目度): 35.64639873984766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Vision-Language Models (VLMs) exhibit impressive complex reasoning capabilities but remain largely unexplored in visual sequential planning, i.e., executing multi-step actions towards a goal. Additionally, practical sequential planning often involves non-optimal (erroneous) steps, challenging VLMs to detect and correct such steps. We propose Corrective Sequential Planning Benchmark (CoSPlan) to evaluate VLMs in error-prone, vision-based sequential planning tasks across 4 domains: maze navigation, block rearrangement, image reconstruction,and object reorganization. CoSPlan assesses two key abilities: Error Detection (identifying non-optimal action) and Step Completion (correcting and completing action sequences to reach the goal). Despite using state-of-the-art reasoning techniques such as Chain-of-Thought and Scene Graphs, VLMs (e.g. Intern-VLM and Qwen2) struggle on CoSPlan, failing to leverage contextual cues to reach goals. Addressing this, we propose a novel training-free method, Scene Graph Incremental updates (SGI), which introduces intermediate reasoning steps between the initial and goal states. SGI helps VLMs reason about sequences, yielding an average performance gain of 5.2%. In addition to enhancing reliability in corrective sequential planning, SGI generalizes to traditional planning tasks such as Plan-Bench and VQA.
- Abstract(参考訳): 大規模ビジョンランゲージモデル(VLM)は、複雑な推論能力を示すが、視覚的シーケンシャルな計画、すなわちゴールに向けて多段階的なアクションの実行においてほとんど探索されていない。
さらに、実際のシーケンシャルプランニングは、しばしば非最適(誤った)ステップを伴い、VLMにそのようなステップを検出し修正するよう挑戦する。
モーズナビゲーション,ブロック再構成,画像再構成,オブジェクト再構成という4つの領域にわたる,エラーが発生しやすい視覚ベースの逐次計画タスクにおいて,VLMを評価するための補正逐次計画ベンチマーク(CoSPlan)を提案する。
CoSPlanは、エラー検出(非最適動作の特定)とステップ完了(目標に到達するためのアクションシーケンスの修正と完了)の2つの重要な能力を評価する。
Chain-of-ThoughtやScene Graphsといった最先端の推論技術を使用しても、VLM(例:Intern-VLMとQwen2)はCoSPlanで苦労し、目標を達成するためのコンテキストキューを活用できなかった。
そこで我々はSGI(Scene Graph Incremental Update)という新たなトレーニングフリー手法を提案し,初期状態と目標状態の間に中間的推論ステップを導入する。
SGIは、VLMがシーケンスを推論するのに役立ち、平均性能は5.2%向上した。
修正逐次計画における信頼性の向上に加えて、SGIはPlan-BenchやVQAといった従来の計画課題に一般化している。
関連論文リスト
- Subgoal Graph-Augmented Planning for LLM-Guided Open-World Reinforcement Learning [0.0]
大規模言語モデル(LLM)は強化学習に強力な高レベル計画機能を提供する。
LLMは、セマンティックに妥当なサブゴールを生成するが、ターゲット環境では不可能または無関係である。
LLMの計画は自己検証と融合し、自信過剰で信頼性の低いサブゴールとなる。
論文 参考訳(メタデータ) (2025-11-26T02:49:44Z) - Mitigating Cross-Modal Distraction and Ensuring Geometric Feasibility via Affordance-Guided and Self-Consistent MLLMs for Task Planning in Instruction-Following Manipulation [5.903105418868711]
食品準備シナリオに基づいた新しいベンチマークである textbfQuARC (Quantity, Analysis, Relative positioning, Collision) を導入する。
現在のMLLMの2つの大きな制限に対処する。
提案手法はベンチマークで76.7%の成功率を実現し,ViLaベースラインを著しく上回った。
論文 参考訳(メタデータ) (2025-03-17T11:01:02Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos [48.15438373870542]
VidAssistは、インストラクショナルビデオにおけるゼロ/フェーショット目標指向の計画のために設計された統合フレームワークである。
最適な計画生成のための幅優先探索アルゴリズムを採用している。
実験によると、VidAssistは異なる目標指向の計画設定のための統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-30T17:57:28Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - Divide-and-Conquer Monte Carlo Tree Search For Goal-Directed Planning [78.65083326918351]
暗黙的な逐次計画の仮定に代わるものを検討する。
本稿では,最適計画の近似を行うため,Divide-and-Conquer Monte Carlo Tree Search (DC-MCTS)を提案する。
計画順序に対するこのアルゴリズム的柔軟性は,グリッドワールドにおけるナビゲーションタスクの改善に繋がることを示す。
論文 参考訳(メタデータ) (2020-04-23T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。