論文の概要: Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies
- arxiv url: http://arxiv.org/abs/2603.12510v1
- Date: Thu, 12 Mar 2026 22:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.801434
- Title: Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies
- Title(参考訳): ロバストロボット政策のための品質多様性プロンプト生成による協調型ビジョンランゲージ・アクションモデル
- Authors: Siddharth Srikanth, Freddie Liang, Sophie Hsu, Varun Bhatt, Shihan Zhao, Henry Chen, Bryon Tjanaka, Minjune Hwang, Akanksha Saran, Daniel Seita, Aaquib Tabrez, Stefanos Nikolaidis,
- Abstract要約: 本稿では,多種多様な自然言語タスク記述を選択的に識別し,チーム分けを行うQ-DIGを提案する。
Q-DIGはベースライン方式よりも多様で有意義な障害モードを見出す。
ユーザ調査の結果は、Q-DIGがベースラインのプロンプトよりも自然で人間らしいと判断されたプロンプトを生成することを強調している。
- 参考スコア(独自算出の注目度): 16.134245045349036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have significant potential to enable general-purpose robotic systems for a range of vision-language tasks. However, the performance of VLA-based robots is highly sensitive to the precise wording of language instructions, and it remains difficult to predict when such robots will fail. To improve the robustness of VLAs to different wordings, we present Q-DIG (Quality Diversity for Diverse Instruction Generation), which performs red-teaming by scalably identifying diverse natural language task descriptions that induce failures while remaining task-relevant. Q-DIG integrates Quality Diversity (QD) techniques with Vision-Language Models (VLMs) to generate a broad spectrum of adversarial instructions that expose meaningful vulnerabilities in VLA behavior. Our results across multiple simulation benchmarks show that Q-DIG finds more diverse and meaningful failure modes compared to baseline methods, and that fine-tuning VLAs on the generated instructions improves task success rates. Furthermore, results from a user study highlight that Q-DIG generates prompts judged to be more natural and human-like than those from baselines. Finally, real-world evaluations of Q-DIG prompts show results consistent with simulation, and fine-tuning VLAs on the generated prompts further success rates on unseen instructions. Together, these findings suggest that Q-DIG is a promising approach for identifying vulnerabilities and improving the robustness of VLA-based robots. Our anonymous project website is at qdigvla.github.io.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、様々な視覚言語タスクで汎用ロボットシステムを実現する大きな可能性を秘めている。
しかし、VLAに基づくロボットの性能は、言語命令の正確さに非常に敏感であり、そのようなロボットがいつ失敗するかを予測することは困難である。
本稿では,VLAのロバスト性を向上させるために,タスク関連性を維持しながら障害を誘発する多種多様な自然言語タスク記述を選択的に識別し,Q-DIG(Quality Diversity for Diverse Instruction Generation)を提案する。
Q-DIGは、品質多様性(QD)技術とビジョンランゲージモデル(VLM)を統合し、VLAの動作において有意義な脆弱性を露呈する幅広い敵命令を生成する。
複数のシミュレーションベンチマークによる結果から,Q-DIGはベースライン手法よりも多様で有意義な障害モードを呈し,生成した命令に対する微調整VLAがタスク成功率を向上させることが示された。
さらに,ユーザ調査の結果から,Q-DIGがベースラインのプロンプトよりも自然で人間らしく判断されたプロンプトを生成することが明らかとなった。
最後に、Q-DIGプロンプトの実世界評価は、シミュレーションと一致した結果を示し、生成したプロンプトの微調整VLAは、目に見えない命令に対するさらなる成功率を示す。
これらの結果は、Q-DIGが脆弱性を特定し、VLAベースのロボットの堅牢性を改善するための有望なアプローチであることを示唆している。
私たちの匿名プロジェクトのウェブサイトはqdigvla.github.ioにあります。
関連論文リスト
- HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation [7.8735930411335895]
Vision-Language-Action(VLA)モデルは、ロボット操作タスクのための統合されたソリューションである。
VLAモデルのデータ駆動性は、解釈可能性の欠如と相まって、その有効性と堅牢性を保証することが難しい課題である。
本稿では,VLAモデルの評価に特化して設計された,包括的で効率的なプラットフォームであるLADEVを提案する。
論文 参考訳(メタデータ) (2024-10-07T16:49:16Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - A Survey on Vision-Language-Action Models for Embodied AI [90.99896086619854]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。