論文の概要: Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.21815v1
- Date: Fri, 26 Dec 2025 01:01:25 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:28.176512
- Title: Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルに対するエントロピーガイドによる攻撃
- Authors: Mengqi He, Xinyu Tian, Xin Shen, Jinhong Ni, Shu Zou, Zhaoyuan Yang, Jing Zhang,
- Abstract要約: 視覚言語モデル(VLM)は優れた性能を発揮するが、敵の攻撃に弱いままである。
自己回帰生成における重要な決定点である高エントロピートークンのごく一部が、出力軌跡を不均等に支配していることを示す。
有害な変換を伴う競合攻撃成功率(93-95%)を達成するエントロピーバンク誘導アドリアック(EGA)を提案する。
- 参考スコア(独自算出の注目度): 22.510259484720212
- License:
- Abstract: Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.
- Abstract(参考訳): 視覚言語モデル(VLM)は優れた性能を発揮するが、敵の攻撃に弱いままである。
モデル不確実性の尺度であるエントロピーは、VLMの信頼性と強く相関している。
従来のエントロピーベースの攻撃は、全てのデコードステップにおいて不確実性を最大化し、全てのトークンが生成不安定性に等しく寄与すると暗黙的に仮定する。
代わりに、高エントロピートークンのごく一部(約20%)、すなわち自己回帰生成における臨界決定点が出力軌跡を不均等に支配していることを示す。
これらの位置の敵対的摂動を集中させることで、より小さな予算を使いながら、グローバルな手法に匹敵する意味的劣化を実現する。
さらに重要なことは、複数のVLMにおいて、このような選択的攻撃は良性出力の35-49%を有害なものに変換し、より重大な安全性リスクを露呈する。
興味深いことに、これらの脆弱な高エントロピーフォークはアーキテクチャ上多様なVLMにまたがって再帰し、不可能なターゲットに対して17~26%の有害な転送を可能にする。
本研究は, 有害な変換を伴う競合攻撃成功率(93-95%)を達成し, 現行のVLM安全機構の新たな弱点を明らかにするエントロピーバンク誘導逆行攻撃(EGA)を提案する。
関連論文リスト
- Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models [54.61181161508336]
MFA(Multi-Faceted Attack)は、防衛装備型ビジョンランゲージモデル(VLM)の一般的な安全性上の脆弱性を明らかにするフレームワークである。
MFAの中核となるコンポーネントはアテンション・トランスファー・アタック(ATA)であり、競合する目的を持ったメタタスク内に有害な命令を隠す。
MFAは58.5%の成功率を獲得し、既存の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-20T07:12:54Z) - FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - Representation Bending for Large Language Model Safety [27.842146980762934]
大きな言語モデル(LLM)は強力なツールとして登場したが、その固有の安全性のリスクは重大な課題を引き起こしている。
本稿では,LLMにおける有害行動の表現を根本的に破壊する新しい手法であるRepBendを紹介する。
RepBendは最先端のパフォーマンスを達成し、Circuit Breaker、RMU、NPOといった従来の手法よりも優れ、攻撃成功率を最大95%削減する。
論文 参考訳(メタデータ) (2025-04-02T09:47:01Z) - Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。