論文の概要: BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.07961v1
- Date: Mon, 09 Jun 2025 17:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.080552
- Title: BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models
- Title(参考訳): BridgeVLA:視覚言語モデルを用いた効率的な3次元操作学習のための入力出力アライメント
- Authors: Peiyan Li, Yixiang Chen, Hongtao Wu, Xiao Ma, Xiangnan Wu, Yan Huang, Liang Wang, Tao Kong, Tieniu Tan,
- Abstract要約: BridgeVLAは、3D入力を複数の2D画像に投影し、VLMバックボーンとの入力アライメントを保証する新しい3D VLAモデルである。
アクション予測に2Dヒートマップを使用し、一貫した2次元画像空間内の入力空間と出力空間を統一する。
10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たず、異常なサンプル効率を誇示している。
- 参考スコア(独自算出の注目度): 48.81848689570674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, leveraging pre-trained vision-language models (VLMs) for building vision-language-action (VLA) models has emerged as a promising approach to effective robot manipulation learning. However, only few methods incorporate 3D signals into VLMs for action prediction, and they do not fully leverage the spatial structure inherent in 3D data, leading to low sample efficiency. In this paper, we introduce BridgeVLA, a novel 3D VLA model that (1) projects 3D inputs to multiple 2D images, ensuring input alignment with the VLM backbone, and (2) utilizes 2D heatmaps for action prediction, unifying the input and output spaces within a consistent 2D image space. In addition, we propose a scalable pre-training method that equips the VLM backbone with the capability to predict 2D heatmaps before downstream policy learning. Extensive experiments show the proposed method is able to learn 3D manipulation efficiently and effectively. BridgeVLA outperforms state-of-the-art baseline methods across three simulation benchmarks. In RLBench, it improves the average success rate from 81.4% to 88.2%. In COLOSSEUM, it demonstrates significantly better performance in challenging generalization settings, boosting the average success rate from 56.7% to 64.0%. In GemBench, it surpasses all the comparing baseline methods in terms of average success rate. In real-robot experiments, BridgeVLA outperforms a state-of-the-art baseline method by 32% on average. It generalizes robustly in multiple out-of-distribution settings, including visual disturbances and unseen instructions. Remarkably, it is able to achieve a success rate of 96.8% on 10+ tasks with only 3 trajectories per task, highlighting its extraordinary sample efficiency. Project Website:https://bridgevla.github.io/
- Abstract(参考訳): 近年,視覚言語モデル構築のための事前学習型視覚言語モデル (VLM) の利用が,効果的なロボット操作学習への有望なアプローチとして浮上している。
しかし、動作予測のために3D信号をVLMに組み込む手法はごくわずかであり、3Dデータに固有の空間構造を完全に活用していないため、サンプル効率は低い。
本稿では,(1)複数の2次元画像に3次元入力を投影し,VLMバックボーンとの入力アライメントを確保する新しい3次元VLAモデルであるBridgeVLAを紹介する。
さらに,VLMバックボーンに,下流ポリシー学習の前に2次元ヒートマップを予測する機能を備えた,スケーラブルな事前学習手法を提案する。
大規模な実験により,提案手法は効率よく効果的に3D操作を学習できることが示されている。
BridgeVLAは3つのシミュレーションベンチマークで最先端のベースラインメソッドを上回っている。
RLBenchでは、平均成功率は81.4%から88.2%に向上する。
COLOSSEUMでは、挑戦的な一般化設定において、パフォーマンスが大幅に向上し、平均成功率が56.7%から64.0%に向上した。
GemBenchでは、平均成功率の観点から比較ベースラインメソッドを全て上回っている。
実際のロボット実験では、BridgeVLAは最先端のベースライン法を平均で32%上回っている。
視覚障害や見えない指示など、複数のアウト・オブ・ディストリビューション設定で堅牢に一般化する。
注目すべきは、10以上のタスクで96.8%の成功率を達成することができ、1タスクにつき3つの軌道しか持たないことだ。
プロジェクトウェブサイト:https://bridgevla.github.io/
関連論文リスト
- DINeMo: Learning Neural Mesh Models with no 3D Annotations [7.21992608540601]
カテゴリーレベルの3D/6Dポーズ推定は、総合的な3Dシーン理解に向けた重要なステップである。
最近の研究は、分析バイシンセサイザーの観点から、2Dおよび3Dタスクにアプローチするニューラルネットワークモデルについて検討している。
疑似対応を利用して3次元アノテーションを使わずにトレーニングした新しいニューラルネットワークモデルであるDINeMoを提案する。
論文 参考訳(メタデータ) (2025-03-26T04:23:53Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - CALICO: Self-Supervised Camera-LiDAR Contrastive Pre-training for BEV
Perception [32.91233926771015]
CALICOは、LiDARとカメラバックボーンの両方に対照的な目的を適用する新しいフレームワークである。
我々のフレームワークは、異なるバックボーンとヘッドに合わせることができ、マルチモーダルなBEV知覚のための有望なアプローチとして位置づけられる。
論文 参考訳(メタデータ) (2023-06-01T05:06:56Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。