論文の概要: CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.22238v1
- Date: Fri, 24 Apr 2026 05:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.353456
- Title: CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models
- Title(参考訳): CodeGraphVLP: Code-as-Plannerが非マルコフビジョンランゲージ・アクションモデルのための意味グラフ状態に到達
- Authors: Khoa Vo, Sieu Tran, Taisei Hanyu, Yuki Ikebe, Duy Nguyen, Bui Duy Quoc Nghi, Minh Vu, Anthony Gunderman, Chase Rainwater, Anh Nguyen, Ngan Le,
- Abstract要約: VLA(Vision-Language-Action)モデルは一般的なロボット操作を約束するが、通常は短期水平政策として訓練され展開される。
信頼性の高い長距離操作を可能にする階層型フレームワークであるCodeGraphを提案する。
- 参考スコア(独自算出の注目度): 13.691036198349465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models promise generalist robot manipulation, but are typically trained and deployed as short-horizon policies that assume the latest observation is sufficient for action reasoning. This assumption breaks in non-Markovian long-horizon tasks, where task-relevant evidence can be occluded or appear only earlier in the trajectory, and where clutter and distractors make fine-grained visual grounding brittle. We present CodeGraphVLP, a hierarchical framework that enables reliable long-horizon manipulation by combining a persistent semantic-graph state with an executable code-based planner and progress-guided visual-language prompting. The semantic-graph maintains task-relevant entities and relations under partial observability. The synthesized planner executes over this semantic-graph to perform efficient progress checks and outputs a subtask instruction together with subtask-relevant objects. We use these outputs to construct clutter-suppressed observations that focus the VLA executor on critical evidence. On real-world non-Markovian tasks, CodeGraphVLP improves task completion over strong VLA baselines and history-enabled variants while substantially lowering planning latency compared to VLM-in-the-loop planning. We also conduct extensive ablation studies to confirm the contributions of each component.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、一般的なロボット操作を約束するが、一般的には、最新の観察がアクション推論に十分であると考える短期水平ポリシーとして訓練され、デプロイされる。
この仮定は、非マルコフ的長距離タスクにおいて破られ、そこではタスク関連エビデンスを排除したり、軌道上でのみ早く現れることがあり、乱れや邪魔者がきめ細かな視覚的接地を不安定にする。
永続的なセマンティックグラフ状態と実行可能なコードベースプランナと進行誘導型視覚言語プロンプトを組み合わせることで,信頼性の高い長期操作を可能にする階層型フレームワークであるCodeGraphVLPを提案する。
セマンティックグラフは、部分的可観測性の下でタスク関連エンティティと関係を維持する。
合成プランナーは、このセマンティックグラフ上で実行し、効率的な進捗チェックを行い、サブタスク関連オブジェクトと共にサブタスク命令を出力する。
我々はこれらの出力を用いて、VLA執行部を批判的証拠に焦点をあてるクラッタ抑制観測を構築する。
実世界の非マルコフタスクでは、CodeGraphVLPは、VLM-in-the-loop計画に比べて計画遅延を大幅に低減しつつ、強力なVLAベースラインと履歴対応のバリエーションよりもタスク補完を改善している。
また, 各成分の寄与を確認するため, 広範囲にわたるアブレーション研究を行っている。
関連論文リスト
- Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks [21.341051218915535]
本稿では,デモをサブタスクに自動的に分解するデモデコンポザを提案する。
本手法は,シミュレーションおよび実世界のタスクにおいて,最先端のサブタスクデコンポーザよりも優れる。
論文 参考訳(メタデータ) (2025-10-16T17:59:37Z) - Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - VeriGraph: Scene Graphs for Execution Verifiable Robot Planning [33.8868315479384]
本稿では,ロボット計画のための視覚言語モデル(VLM)を統合するフレームワークであるVeriGraphを提案する。
VeriGraphはシーングラフを中間表現として使用し、キーオブジェクトと空間関係をキャプチャして、計画検証と改善を改善する。
提案手法は,多様な操作シナリオにおけるタスク完了率を大幅に向上させ,言語ベースタスクでは58%,画像ベースタスクでは30%,ベースラインメソッドでは58%向上させる。
論文 参考訳(メタデータ) (2024-11-15T18:59:51Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。