論文の概要: StableVLA: Towards Robust Vision-Language-Action Models without Extra Data
- arxiv url: http://arxiv.org/abs/2605.18287v1
- Date: Mon, 18 May 2026 12:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.597112
- Title: StableVLA: Towards Robust Vision-Language-Action Models without Extra Data
- Title(参考訳): StableVLA:余分なデータのないロバストなビジョンランゲージ・アクションモデルを目指して
- Authors: Yiyang Fu, Chubin Zhang, Shukai Gong, Yufan Deng, Kaiwei Sun, Qiyang Min, Qibin Hou, Yansong Tang, Jianan Wang, Daquan Zhou,
- Abstract要約: トレーニングデータセット内のあらゆる障害を包含することは不可能である。
このことは、目に見えない現実世界の視覚障害に遭遇する際のビジョン・ランゲージ・アクション(VLA)モデルの堅牢性に関する批判的な疑問を提起する。
本研究では、最近の最先端VLAモデルに基づく系統的な研究を行い、トレーニングデータに欠落した視覚障害が発生した場合に顕著な性能低下を示す。
- 参考スコア(独自算出の注目度): 68.81275738717765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is infeasible to encompass all possible disturbances within the training dataset. This raises a critical question regarding the robustness of Vision-Language-Action (VLA) models when encountering unseen real-world visual disturbances, particularly under imperfect visual conditions. In this work, we conduct a systematic study based on recent state-of-the-art VLA models and reveal a significant performance drop when visual disturbances absent from the training data are introduced. To mitigate this issue, we propose a lightweight adapter module grounded in information theory, termed the Information Bottleneck Adapter (IB-Adapter), which selectively filters potential noise from visual inputs. Without requiring any extra data or augmentation strategies, IB-Adapter consistently improves over the baseline by an average of 30%, while adding fewer than 10M parameters, demonstrating notable efficiency and effectiveness. Furthermore, even with a 14x smaller backbone (0.5B parameters) and no pre-training on the Open X-Embodiment dataset, our model StableVLA achieves robustness competitive with 7B-scale state-of-the-art VLAs. With negligible parameter overhead (<10M), our approach maintains accuracy on long-horizon tasks and surpasses OpenPi under both synthetic and physical visual corruptions.
- Abstract(参考訳): トレーニングデータセット内のあらゆる障害を包含することは不可能である。
このことは、特に不完全な視覚条件下で、目に見えない現実世界の視覚障害に遭遇する際のビジョン・ランゲージ・アクション(VLA)モデルの堅牢性に関する批判的な疑問を提起する。
本研究では、最近の最先端VLAモデルに基づく系統的な研究を行い、トレーニングデータに欠落した視覚障害が発生した場合に顕著な性能低下を示す。
この問題を軽減するために,情報理論を基盤としたIB-Adapter (Information Bottleneck Adapter) と呼ばれる,視覚入力から潜在的なノイズを選択的にフィルタする軽量アダプタモジュールを提案する。
IB-Adapterは、追加のデータや拡張戦略を必要とせずに、平均30%のベースラインを継続的に改善し、1000万以上のパラメータを追加し、顕著な効率性と有効性を示している。
さらに,14倍小さいバックボーン(0.5Bパラメータ)とOpen X-Embodimentデータセットの事前トレーニングがなくても,StableVLAは7BスケールのVLAと競合する堅牢性を達成できる。
パラメータオーバーヘッドが無視できる(<10M) では, 長軸タスクの精度を保ち, 合成と物理の両方の視覚的汚濁の下でOpenPiを上回っている。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Towards Robust and Accurate Visual Prompting [11.918195429308035]
本研究では,ロバストモデルから派生した視覚的プロンプトが,一般化性能の低下に悩まされながら,ロバスト性を継承できるかどうかを検討する。
本稿では,PBL(Prompt Boundary Loose)と呼ばれる新しい手法を提案する。
本研究は普遍的であり,提案手法の意義を実証するものである。
論文 参考訳(メタデータ) (2023-11-18T07:00:56Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained
Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。
そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。
本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T19:35:08Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。