論文の概要: Adversarial attacks against Modern Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.16960v1
- Date: Tue, 17 Mar 2026 04:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.303027
- Title: Adversarial attacks against Modern Vision-Language Models
- Title(参考訳): 近代視覚言語モデルに対する敵対的攻撃
- Authors: Alejandro Paredes La Torre,
- Abstract要約: 我々は,現実的な事前デプロイ条件をシミュレートするために構築された自己完結型eコマース環境に配備された,オープンソースの視覚言語モデル(VLM)エージェントの敵対的堅牢性について検討した。
LLaVA-v1.5-7BとQwen2.5-VL-7Bの2剤を3種類の勾配攻撃下で評価した。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.
- Abstract(参考訳): 我々は,現実的な事前デプロイ条件をシミュレートするために構築された自己完結型eコマース環境に配備された,オープンソースの視覚言語モデル(VLM)エージェントの敵対的堅牢性について検討した。
LLaVA-v1.5-7BとQwen2.5-VL-7Bという2つのエージェントを,BIM(Basic Iterative Method),PGD(Projected Gradient Descent),CLIP(CLIP)ベースのスペクトル攻撃の3つの段階的に評価した。
LLaVAに対して、3つの攻撃はいずれも大きな攻撃成功率(52.6%、53.8%、66.9%)を達成し、単純な勾配に基づく手法がオープンソースのVLMエージェントに実用的な脅威をもたらすことを示した。
Qwen2.5-VLは、全ての攻撃(6.5%、7.7%、および15.5%)で、オープンソースVLMファミリー間の対角弾力性において有意義なアーキテクチャ上の違いを示唆している。
これらの結果は,商業展開前のVLMエージェントのセキュリティ評価に直接的な影響を及ぼす。
関連論文リスト
- Security Assessment and Mitigation Strategies for Large Language Models: A Comprehensive Defensive Framework [0.6015898117103067]
大規模言語モデルは、医療から金融への重要なインフラをますます力づけていますが、敵の操作に対する脆弱性は、システムの完全性とユーザの安全を脅かしています。
本研究は、標準化された脆弱性評価フレームワークを確立し、特定された脅威から保護するための多層防御システムを開発することで、このギャップに対処する。
論文 参考訳(メタデータ) (2026-03-17T20:32:06Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Agentic UAVs: LLM-Driven Autonomy with Integrated Tool-Calling and Cognitive Reasoning [3.4643961367503575]
既存のUAVフレームワークには、コンテキスト対応の推論、自律的な意思決定、エコシステムレベルの統合が欠けている。
本稿では,5層アーキテクチャであるエージェントUAVフレームワークを紹介する(知覚,推論,アクション,統合,学習)。
ROS2 と Gazebo ベースのプロトタイプは YOLOv11 オブジェクト検出と GPT-4 推論とローカル Gemma-3 デプロイメントを統合している。
論文 参考訳(メタデータ) (2025-09-14T08:46:40Z) - Differential Robustness in Transformer Language Models: Empirical Evaluation Under Adversarial Text Attacks [3.3772986620114387]
RoBERTa-BaseとFlanT5は、高度な攻撃を受けた場合でも精度を保ち、優れたレジリエンスを示した。
BERT-Baseはかなりの脆弱性を示し、TextFoolerはモデルの精度を48%から3%に下げて93.75%の成功率を達成した。
論文 参考訳(メタデータ) (2025-09-05T21:43:06Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。