論文の概要: On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
- arxiv url: http://arxiv.org/abs/2510.00037v1
- Date: Fri, 26 Sep 2025 14:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.121715
- Title: On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations
- Title(参考訳): マルチモーダル摂動に対する視覚言語行動モデルのロバスト性について
- Authors: Jianing Guo, Zhenhong Wu, Chang Tu, Yiyao Ma, Xiangqi Kong, Zhiqian Liu, Jiaming Ji, Shuning Zhang, Yuanpei Chen, Kai Chen, Xianglong Liu, Qi Dou, Yaodong Yang, Huijie Zhao, Weifeng Lv, Simin Li,
- Abstract要約: 視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 52.10297451263861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Vision-Language-Action (VLA) models, robustness to real-world perturbations is critical for deployment. Existing methods target simple visual disturbances, overlooking the broader multi-modal perturbations that arise in actions, instructions, environments, and observations. Here, we first evaluate the robustness of mainstream VLAs under 17 perturbations across four modalities. We find (1) actions as the most fragile modality, (2) Existing visual-robust VLA do not gain robustness in other modality, and (3) pi0 demonstrates superior robustness with a diffusion-based action head. To build multi-modal robust VLAs, we propose RobustVLA against perturbations in VLA inputs and outputs. For output robustness, we perform offline robust optimization against worst-case action noise that maximizes mismatch in flow matching objective. This can be seen as adversarial training, label smoothing, and outlier penalization. For input robustness, we enforce consistent actions across input variations that preserve task semantics. To account for multiple perturbations, we formulate robustness as a multi-armed bandit problem and apply an upper confidence bound algorithm to automatically identify the most harmful noise. Experiments on LIBERO demonstrate our RobustVLA delivers absolute gains over baselines of 12.6% on the pi0 backbone and 10.4% on the OpenVLA backbone across all 17 perturbations, achieving 50.6x faster inference than existing visual-robust VLAs, and a 10.4% gain under mixed perturbations. Our RobustVLA is particularly effective on real-world FR5 robot with limited demonstrations, showing absolute gains by 65.6% under perturbations of four modalities.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルでは、現実の摂動に対する堅牢性は、デプロイに不可欠である。
既存の方法は単純な視覚障害をターゲットにしており、行動、指示、環境、観察で生じるより広いマルチモーダル摂動を見渡せる。
ここでは、4つのモードにわたる17の摂動下での主流VLAの堅牢性を評価する。
その結果,(1) 動作は最も脆弱なモード,(2) 既存の視覚障害型VLAは他のモードでは頑健さを得られず,(3) pi0 は拡散作用ヘッドで優れた堅牢性を示す。
マルチモーダルなVLAを構築するために,VLA入力と出力の摂動に対してロバストVLAを提案する。
出力のロバスト性のために,フローマッチング目的におけるミスマッチを最大化する最悪の動作雑音に対して,オフラインでロバストな最適化を行う。
これは、逆行訓練、ラベルの平滑化、およびアウトリー・ペナル化と見なすことができる。
入力のロバスト性については,タスクのセマンティクスを保持する入力の変動に対して一貫した動作を強制する。
複数の摂動を考慮し,マルチアームバンディット問題としてロバストネスを定式化し,最も有害なノイズを自動的に識別するために,高信頼束縛アルゴリズムを適用した。
LIBEROの実験では、我々のRobustVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%、既存のビジュアルロバストVLAで50.6倍、混合摂動で10.4%、ベースラインで絶対的なゲインを達成している。
我々のRobustVLAは実世界のFR5ロボットに特に効果があり、4つのモードの摂動下では65.6%の絶対的な増加を示す。
関連論文リスト
- dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - To Trust Or Not To Trust Your Vision-Language Model's Prediction [32.26134619728882]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2025-05-29T17:59:01Z) - Safeguarding Vision-Language Models: Mitigating Vulnerabilities to Gaussian Noise in Perturbation-based Attacks [10.44351773183656]
VLM(Vision-Language Models)は、ノイズや破損した画像を処理する際に、ジェイルブレイク攻撃に対して脆弱である。
この課題に対処するために、画像とテキストのペアが一致しないマルチモーダル安全データセットであるRobust-VLGuardを提案する。
より強力な最適化に基づく視覚摂動攻撃のための拡散モデルを用いたDiffPure-VLMを提案する。
論文 参考訳(メタデータ) (2025-04-02T02:35:19Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [102.06442250444618]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。