論文の概要: VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training
- arxiv url: http://arxiv.org/abs/2606.04708v1
- Date: Wed, 03 Jun 2026 10:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.687426
- Title: VISTA: Vision-Grounded and Physics-Validated Adaptation of UMI data for VLA Training
- Title(参考訳): VISTA:VLAトレーニングのためのUMIデータの視覚的・物理的適応
- Authors: Siyuan Yang, Linzheng Guo, Ouyang Lu, Zhaxizhuoma, Daoran Zhang, Xinmiao Wang, Ting Xiao, Fangzheng Yan, Zhijun Chen, Yan Ding, Chao Yu, Chenjia Bai, Xuelong Li,
- Abstract要約: Universal Manipulation Interface (UMI)は、ハードウェア固有の遠隔操作なしでスケーラブルな実世界のロボットデータ収集を可能にする。
VISTAは、この2つのギャップを3つの相乗的コンポーネントを通して橋渡しするフレームワークである。
我々は,物理検証パイプライン,UMI-VQA,検証された軌道データ,コミュニティのための事前学習モデルをリリースする。
- 参考スコア(独自算出の注目度): 52.05483137072975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal Manipulation Interface (UMI) enables scalable real-world robot data collection without hardware-specific teleoperation, yet leveraging UMI data to train large-scale Vision-Language-Action (VLA) models remains fundamentally challenging. We identify two critical mismatches: wrist-mounted fisheye views, with severe radial distortion and local gripper-centric perspectives, are out-of-distribution for pretrained VLMs; and human-collected trajectories frequently violate kinematic limits, incur collisions, or exceed controller bandwidth, teaching VLA policies physically infeasible actions. To address the challenges, we present VISTA, a framework that bridges this dual gap through three synergistic components. (i)~UMI-VQA, the first large-scale VQA dataset tailored to wrist-mounted fisheye observations, aligns VLM representations to the distorted visual regime via auxiliary vision-language supervision. (ii)~A systematic physical-validation pipeline performs a data-completeness pre-check and scores each valid trajectory for trajectory continuity, self-collision risk, and execution fidelity before it enters training. (iii)~A two-stage co-training recipe jointly learns vision-language grounding on UMI-VQA and action prediction on validated trajectories. Our experiments empirically show that incorporating UMI-VQA consistently improves downstream policy performance, and that physical-validation scores are strongly predictive of deployment success. On diverse simulation and real-world manipulation tasks, VISTA significantly outperforms strong baselines including $π_{0.5}$, LingBot-VLA, and Wall-X. We release the physical-validation pipeline, UMI-VQA, validated trajectory data, and the pre-trained model for the community.
- Abstract(参考訳): ユニバーサル・マニピュレーション・インタフェース(UMI)は、ハードウェア固有の遠隔操作なしにスケーラブルな実世界のロボットデータ収集を可能にするが、大規模なビジョン・ランゲージ・アクション(VLA)モデルをトレーニングするためにUMIデータを活用することは基本的に困難である。
手首に装着した魚眼の視線は、高度な放射歪みと局所的なグリップ中心の視線を持ち、事前訓練されたVLMの分布外であり、人為的な軌跡は、しばしば運動的限界に違反する、衝突を誘発する、または制御帯域を超えた、VLAポリシーを物理的に実現不可能な行動で教える、という2つの重要なミスマッチを同定する。
この課題に対処するため、我々は3つの相乗的コンポーネントを通してこの2つのギャップを橋渡しするフレームワークであるVISTAを提案する。
(i)—UMI-VQAは、手首に装着した魚眼観察用に設計された最初の大規模VQAデータセットであり、視覚言語による補助的な監督を通して、VLM表現を歪んだ視覚状態に合わせる。
(ii)~ 系統的な物理的検証パイプラインは、データ完全性事前チェックを行い、トレーニングに入る前に、軌道連続性、自己衝突リスク、実行忠実性の各有効な軌跡をスコアする。
(iii)~2段階協調学習レシピは,UMI-VQAに基づく視覚言語基盤と,検証された軌道上での行動予測を共同で学習する。
実験により,UMI-VQAを組み込むことで,下流の政策性能が一貫した改善が達成され,物理バリデーションスコアがデプロイメントの成功を強く予測できることが実証された。
多様なシミュレーションや実世界の操作タスクにおいて、VISTAは、$π_{0.5}$、LingBot-VLA、Wall-Xなど、強いベースラインを著しく上回る。
我々は,物理検証パイプライン,UMI-VQA,検証された軌道データ,コミュニティのための事前学習モデルをリリースする。
関連論文リスト
- ForgeVLA: Federated Vision-Language-Action Learning without Language Annotations [22.409577952899856]
Vision-Language-Action(VLA)モデルは、汎用ロボットインテリジェンスを大いに約束する。
ForgeVLAは、生データの集中化や手動のアノテーションを必要とせずに、分散ビジョンアクションペアからVLAモデルを学ぶ。
論文 参考訳(メタデータ) (2026-05-08T09:20:56Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Rethinking Visual-Language-Action Model Scaling: Alignment, Mixture, and Regularization [65.37179698521766]
VLA(Vision-Language-Action)モデルは、ジェネラリストロボットの制御を強く約束する。
標準的な「スケールデータ」レシピがロボット工学に翻訳されるかどうかはまだ不明だ。
本稿では,多様なロボットを対象とした事前学習のためのコアトレーニング選択を再考する,VLAスケーリングの体系的かつ制御された研究を提案する。
論文 参考訳(メタデータ) (2026-02-10T12:25:43Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。