論文の概要: Make Your VLA More Robust Without More Data By Interleaving Motion Planning
- arxiv url: http://arxiv.org/abs/2606.00985v1
- Date: Sun, 31 May 2026 03:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:52:20.70214
- Title: Make Your VLA More Robust Without More Data By Interleaving Motion Planning
- Title(参考訳): モーションプランニングでVLAをよりロバストにする
- Authors: Dan BW Choe, Sundhar Vinodh Sangeetha, Samuel Coogan, Shreyas Kousik,
- Abstract要約: 本稿では、モデルに基づくモーションプランニングをVisionLanguageAction(VLA)モデルと統合し、さらなるトレーニングをすることなくロバスト性を改善するフレームワークを提案する。
BEHAVIOR-1Kベンチマークに対する我々のアプローチを評価し,トップエンド対エンドのVLAベースライン上でのタスク進捗を113%改善したことを示す。
- 参考スコア(独自算出の注目度): 3.8626902908968863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown remarkable progress for mobile manipulation, but their performance on long-horizon tasks remains poor. These tasks are especially challenging because (1) progress toward high-level goals must be maintained across extended sequences of spatially distributed subtasks, and (2) early execution errors compound rapidly over the task horizon. These challenges persist despite finetuning on large human teleoperated mobile manipulation data, indicating that more data alone may not resolve the problem. To address these challenges, we propose MPVI: Motion Planner / VLA Interleaving, a framework that integrates model-based motion planning with VLAs to improve robustness without further training. The proposed integration enables localization and navigation to distant or occluded target objects through cluttered scenes using open-vocabulary object detection, frontier exploration and motion planning. However, such integration is non-trivial, requiring reliable switching between modules; we show one way forward via VLM-based completion checking with proprioceptive triggers. We evaluate our approach on the BEHAVIOR-1K benchmark and demonstrate 113% improvement in task progress over a top end-to-end VLA baseline. Additional details are available at the project page: https://mpvi.netlify.app/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルはモバイル操作において顕著な進歩を見せている。
これらのタスクは、(1)空間的に分散したサブタスクの長いシーケンスで高レベルな目標への進行を維持する必要があり、(2)タスクの地平線上での早期実行エラーが急速に複雑になるため、特に難しい。
これらの課題は、大きな人間が遠隔操作するモバイル操作データを微調整したにもかかわらず継続し、より多くのデータがこの問題を解決できないことを示唆している。
これらの課題に対処するために,MPVI: Motion Planner / VLA Interleavingを提案する。
提案手法は,開語彙オブジェクト検出,フロンティア探索,移動計画などを用いて,散在する対象物体の局所化とナビゲーションを可能にする。
しかし、このような統合は簡単ではなく、モジュール間の確実な切り替えを必要とする。
BEHAVIOR-1Kベンチマークに対する我々のアプローチを評価し,トップエンド対エンドのVLAベースライン上でのタスク進捗を113%改善したことを示す。
詳細はプロジェクトのページで確認できる。
関連論文リスト
- Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - AtomVLA: Scalable Post-Training for Robotic Manipulation via Predictive Latent World Models [9.608633915316252]
VLA(Vision-Language-Action)モデルでは、一般化可能なロボット操作の可能性を示している。
現在のパラダイムは、教師付き微調整中の粗大でハイレベルなタスク命令に依存している。
スケーラブルなオフライン後トレーニングパイプラインと統合された,最初のサブタスク対応VLAフレームワークである方法を提案する。
論文 参考訳(メタデータ) (2026-03-09T15:52:48Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models [42.553888395227766]
本稿では、視覚言語アクション(VLA)モデルのための軽量でトレーニング不要なフレームワークを提案する。
VLA-SCTは自己修正制御ループとして動作し、データ駆動型アクションリファインメントと条件論理を組み合わせて終了する。
本手法は,LIBEROベンチマークのすべてのデータセットに対して一貫した改善を実現する。
論文 参考訳(メタデータ) (2026-02-02T08:44:40Z) - V-CAGE: Context-Aware Generation and Verification for Scalable Long-Horizon Embodied Tasks [6.820118518027692]
V-CAGEは、大規模なセマンティックアライメントデータセットを生成するクローズドループフレームワークである。
本研究では,シーン合成における幾何学的整合性を実現する文脈認識型インスタンス化機構を提案する。
また、階層的な命令分解モジュールを用いて、抽象意図と低レベル制御のギャップを埋める。
論文 参考訳(メタデータ) (2026-01-21T16:41:51Z) - PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation [27.791908160098625]
PALMは、インタラクション中心のアベイランス推論とサブタスクプログレスキューに関するポリシー学習を構築する。
Palmはシミュレーションや実世界の実験において、一貫してベースラインを上回っている。
論文 参考訳(メタデータ) (2026-01-11T21:00:58Z) - TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking [30.955088934475928]
本稿では,空間的推論機構と時間的同定メモリ(TIM)という2つの重要なモジュールによる視覚追跡を具体化する新しいモデルであるTrackVLA++を提案する。
TrackVLA++は、エゴセントリックな設定とマルチカメラ設定の両方で、公開ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-08T15:29:17Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。