論文の概要: Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming
- arxiv url: http://arxiv.org/abs/2604.05595v1
- Date: Tue, 07 Apr 2026 08:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.721852
- Title: Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming
- Title(参考訳): 多様性を考慮したレッドチームによる視覚・言語・行動モデルにおける言語的脆弱性の発見
- Authors: Baoshun Tong, Haoran He, Ling Pan, Yang Liu, Liang Lin,
- Abstract要約: 本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
- 参考スコア(独自算出の注目度): 64.48633529149579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have achieved remarkable success in robotic manipulation. However, their robustness to linguistic nuances remains a critical, under-explored safety concern, posing a significant safety risk to real-world deployment. Red teaming, or identifying environmental scenarios that elicit catastrophic behaviors, is an important step in ensuring the safe deployment of embodied AI agents. Reinforcement learning (RL) has emerged as a promising approach in automated red teaming that aims to uncover these vulnerabilities. However, standard RL-based adversaries often suffer from severe mode collapse due to their reward-maximizing nature, which tends to converge to a narrow set of trivial or repetitive failure patterns, failing to reveal the comprehensive landscape of meaningful risks. To bridge this gap, we propose a novel \textbf{D}iversity-\textbf{A}ware \textbf{E}mbodied \textbf{R}ed \textbf{T}eaming (\textbf{DAERT}) framework, to expose the vulnerabilities of VLAs against linguistic variations. Our design is based on evaluating a uniform policy, which is able to generate a diverse set of challenging instructions while ensuring its attack effectiveness, measured by execution failures in a physical simulator. We conduct extensive experiments across different robotic benchmarks against two state-of-the-art VLAs, including $π_0$ and OpenVLA. Our method consistently discovers a wider range of more effective adversarial instructions that reduce the average task success rate from 93.33\% to 5.85\%, demonstrating a scalable approach to stress-testing VLA agents and exposing critical safety blind spots before real-world deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において顕著な成功を収めた。
しかし、言語的ニュアンスに対する堅牢性は、いまだに重要であり、探索されていない安全上の懸念であり、現実世界の展開に重大な安全リスクをもたらす。
破滅的な行動を引き起こす環境シナリオをレッドチームで特定することは、エンボディされたAIエージェントの安全な配置を保証するための重要なステップである。
強化学習(RL)は、これらの脆弱性を明らかにすることを目的とした、自動化されたレッドチームにおける有望なアプローチとして登場した。
しかし、標準的なRLベースの敵は、報酬を最大化する性質のため、しばしば深刻なモード崩壊に悩まされる。
このギャップを埋めるために、VLAの脆弱性を言語的変動に対して露呈するために、新しい \textbf{D}iversity-\textbf{A}ware \textbf{E}mbodied \textbf{R}ed \textbf{T}eaming (\textbf{DAERT}) フレームワークを提案する。
本設計は,物理シミュレータにおける実行障害によって測定された攻撃効率を確保しつつ,多種多様な挑戦的命令を生成できる一様ポリシーの評価に基づく。
我々は、π_0$とOpenVLAを含む2つの最先端VLAに対して、さまざまなロボットベンチマークで広範な実験を行う。
提案手法は,平均タスク成功率を93.33\%から5.85\%に削減し,ストレステストを行うVLAエージェントに対するスケーラブルなアプローチを実証し,実際の展開前に重要な安全盲点を明らかにする。
関連論文リスト
- AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - Seeing the Threat: Vulnerabilities in Vision-Language Models to Adversarial Attack [7.988475248750045]
LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
従来の敵攻撃がLVLMに埋め込まれた安全機構を回避できる理由を明らかにするために,系統的な表現解析を行う。
LVLMに対する敵攻撃のための2段階評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T04:43:39Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。