論文の概要: StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models
- arxiv url: http://arxiv.org/abs/2603.20659v1
- Date: Sat, 21 Mar 2026 05:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.024769
- Title: StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models
- Title(参考訳): StageCraft: VLAモデルにおけるディトラクタの緩和と障害回避を意識した実行
- Authors: Kartikay Milind Pangaonkar, Prabin Rath, Omkar Patil, Nakul Gopalan,
- Abstract要約: 大規模視覚言語モデル(VLM)のインターネットスケール事前学習が,これらの障害の解明と政策失敗の軽減に有効かどうかを検討する。
プレトレーニング済みのVLAポリシー性能を改善するためのトレーニング不要のアプローチであるStageCraftを提案する。
種々の障害や障害を伴う実世界の3つのタスク領域に対して,絶対40%のパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 2.1874189959020423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale pre-training on text and image data along with diverse robot demonstrations has helped Vision Language Action models (VLAs) to generalize to novel tasks, objects and scenes. However, these models are still susceptible to failure in the presence of execution-time impediments such as distractors and physical obstructions in the robot's workspace. Existing policy improvement methods finetune base VLAs to improve generalization, yet they still struggle in unseen distractor settings. To address this problem, we investigate whether internet-scale pretraining of large vision-language models (VLMs) can be leveraged to reason about these impediments and mitigate policy failures. To this end, we propose StageCraft, a training-free approach to improve pretrained VLA policy performance by manipulating the environment's initial state using VLM-based in-context reasoning. StageCraft takes policy rollout videos and success labels as input and leverages VLM's reasoning ability to infer which objects in the initial state need to be manipulated to avoid anticipated execution failures. StageCraft is an extensible plug-and-play module that does not introduce additional constraints on the underlying policy, and only requires a few policy rollouts to work. We evaluate performance of state-of-the-art VLA models with StageCraft and show an absolute 40% performance improvement across three real world task domains involving diverse distractors and obstructions. Our simulation experiments in RLBench empirically show that StageCraft tailors its extent of intervention based on the strength of the underlying policy and improves its performance with more in-context samples. Videos of StageCraft in effect can be found at https://stagecraft-decorator.github.io/stagecraft/ .
- Abstract(参考訳): テキストと画像データによる大規模事前トレーニングと多様なロボットデモは、ビジョン言語アクションモデル(VLA)が新しいタスク、オブジェクト、シーンに一般化するのに役立っている。
しかしながら、これらのモデルは、ロボットの作業空間に障害や物理的障害などの実行時の障害が存在する場合にも、依然として影響を受けやすい。
既存のポリシー改善手法は、一般化を改善するためにベースVLAを微調整するが、まだ見当たらないイントラクタ設定に苦慮している。
この問題に対処するために,大規模な視覚言語モデル(VLM)のインターネットスケール事前学習が,これらの障害の解明と政策失敗の軽減に有効かどうかを検討する。
そこで本研究では,VLMを用いたインコンテキスト推論を用いて環境の初期状態を操作することにより,事前訓練済みのVLAポリシー性能を改善するためのトレーニング不要のアプローチであるStageCraftを提案する。
StageCraftは、ポリシーのロールアウトビデオと成功ラベルを入力として、VLMの推論能力を活用して、初期状態のどのオブジェクトを操作する必要があるかを推論して、予期される実行障害を回避する。
StageCraftは拡張可能なプラグイン・アンド・プレイモジュールで、基礎となるポリシーに追加の制約を課さない。
現状のVLAモデルの性能をStageCraftで評価し,多彩な障害や障害を伴う実世界の3つのタスク領域において,絶対40%の性能向上を示す。
RLBench でのシミュレーション実験により,StageCraft は基本方針の強みに基づいて介入範囲を調整し,よりコンテキスト内サンプルによる性能向上を実証した。
StageCraftの実際のビデオはhttps://stagecraft-decorator.github.io/stagecraft/ で見ることができる。
関連論文リスト
- Vision-Language Models Unlock Task-Centric Latent Actions [75.53481518882275]
本稿では、視覚言語モデル(VLM)の常識推論能力を利用して、迅速な表現を実現することを提案する。
そこで本研究では,VLMに障害を無視するよう求めれば,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T08:38:59Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion [8.05008302748311]
VLA-Pilotは、事前訓練されたVLAポリシーのゼロショット展開のための、プラグアンドプレイの推論時ポリシーステアリング手法である。
実験結果から,VLA-Pilotは市販のVLA政策の成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-11-18T06:30:52Z) - Adversarial Attacks on Robotic Vision Language Action Models [118.02118618146568]
視覚言語行動モデル(VLA)に対する敵対的攻撃について検討する。
我々のアルゴリズムの主な貢献は、完全な制御権限を得るためのLLMジェイルブレイク攻撃の適応と応用である。
LLMのジェイルブレイク文学とは大きく異なるのは、現実世界の攻撃は害の概念と意味的に結びついている必要はないからである。
論文 参考訳(メタデータ) (2025-06-03T19:43:58Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。