論文の概要: Membership Inference Attacks on Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.07088v1
- Date: Fri, 08 May 2026 01:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.709386
- Title: Membership Inference Attacks on Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクションモデルによるメンバーシップ推論攻撃
- Authors: Yuefeng Peng, Mingzhe Li, Kejing Xia, Renhao Zhang, Amir Houmansadr,
- Abstract要約: 本稿では,視覚言語行動モデル(VLA)に対するメンバーシップ推論攻撃に関する最初の体系的研究について述べる。
我々の攻撃は、トークンの確率のような古典的なMIA信号と、観測可能な動作誤差や時間的動きパターンのようなVLA固有の信号の両方を利用する。
我々の研究結果によると、ロボットと具体化されたAIのプライバシーリスクがこれまで過小評価され、VLAモデルの専用のプライバシー評価と防衛の必要性が浮き彫りになっている。
- 参考スコア(独自算出の注目度): 18.964278149350747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Membership inference attacks (MIAs) have been extensively studied in large language models (LLMs) and vision-language models (VLMs), yet their implications for vision-language-action (VLA) models remain largely unexplored. VLA models differ from standard LLMs and VLMs in several important ways: they are often fine-tuned for many epochs on relatively small embodied datasets, operate over constrained and structured action spaces, and expose action outputs that can be observed as executable behaviors and temporally correlated trajectories. These characteristics suggest a distinct and potentially more informative attack surface for membership inference. In this work, we present the first systematic study of MIAs against VLA systems. We formalize two membership inference settings for VLA models: sample-level inference over individual transition samples and trajectory-level inference over complete embodied demonstrations. We further develop a suite of attack methods under multiple access regimes, including strict black-box access. Our attacks exploit both classic MIA signals, such as token likelihood, and VLA-specific signals, such as observable action errors and temporal motion patterns. Across multiple VLA benchmarks and representative VLA models, these attacks achieve strong inference performance, showing that VLA models are highly vulnerable to membership inference. Notably, black-box attacks based only on generated actions achieve strong performance, highlighting a practical privacy risk for deployed embodied AI systems. Our findings reveal a previously underexplored privacy risk in robotic and embodied AI, and underscore the need for dedicated privacy evaluation and defenses for VLA models.
- Abstract(参考訳): メンバーシップ推論攻撃 (MIA) は大規模言語モデル (LLM) や視覚言語モデル (VLM) で広く研究されてきたが、視覚言語モデル (VLA) に対するその影響は未解明のままである。
VLAモデルは、通常LLMやVLMとはいくつかの重要な方法で異なる: 比較的小さな埋め込みデータセット上で多くのエポックに対して微調整され、制約された、構造化されたアクション空間上で動作し、実行可能な振る舞いや時間的に相関した軌道として観測できるアクション出力を公開する。
これらの特徴は、メンバーシップ推論において、識別され、より有益な攻撃面であることを示している。
本稿では、VLAシステムに対するMIAの最初の系統的研究について述べる。
VLAモデルに対する2つのメンバシップ推論設定を定式化した: 個々の遷移サンプルに対するサンプルレベル推論と、完全に具体化されたデモに対する軌道レベル推論である。
我々はさらに、厳格なブラックボックスアクセスを含む複数のアクセス体制の下で攻撃方法のスイートを開発する。
我々の攻撃は、トークンの確率のような古典的なMIA信号と、観測可能な動作誤差や時間的動きパターンのようなVLA固有の信号の両方を利用する。
複数のVLAベンチマークと代表的なVLAモデルを通して、これらの攻撃は強い推論性能を達成し、VLAモデルがメンバーシップ推論に対して非常に脆弱であることを示す。
特に、生成されたアクションのみに基づくブラックボックス攻撃は、強力なパフォーマンスを実現し、デプロイされた組み込みAIシステムの実用的なプライバシリスクを強調している。
我々の研究結果によると、ロボットと具体化されたAIのプライバシーリスクがこれまで過小評価され、VLAモデルの専用のプライバシー評価と防衛の必要性が浮き彫りになっている。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。