論文の概要: An Image Is Worth Ten Thousand Words: Verbose-Text Induction Attacks on VLMs
- arxiv url: http://arxiv.org/abs/2511.16163v1
- Date: Thu, 20 Nov 2025 09:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.546815
- Title: An Image Is Worth Ten Thousand Words: Verbose-Text Induction Attacks on VLMs
- Title(参考訳): 10万ワードの価値ある画像:VLM上のテキストによるインジェクション攻撃
- Authors: Zhi Luo, Zenghui Yuan, Wenqi Wei, Daizong Liu, Pan Zhou,
- Abstract要約: 本稿では,良性画像に知覚不能な逆方向の摂動を注入する新しい動詞文誘導攻撃(VTIA)を提案する。
まず、敵のプロンプトを自動的に識別する強化学習戦略を用いて、敵のプロンプト検索を行う。
次に、入力画像の対角的例を作成するために、視線対応摂動最適化を行い、摂動画像の視覚的埋め込みと対角的プロンプトの類似性を最大化する。
- 参考スコア(独自算出の注目度): 48.05423013052023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the remarkable success of Vision-Language Models (VLMs) on multimodal tasks, concerns regarding their deployment efficiency have become increasingly prominent. In particular, the number of tokens consumed during the generation process has emerged as a key evaluation metric.Prior studies have shown that specific inputs can induce VLMs to generate lengthy outputs with low information density, which significantly increases energy consumption, latency, and token costs. However, existing methods simply delay the occurrence of the EOS token to implicitly prolong output, and fail to directly maximize the output token length as an explicit optimization objective, lacking stability and controllability.To address these limitations, this paper proposes a novel verbose-text induction attack (VTIA) to inject imperceptible adversarial perturbations into benign images via a two-stage framework, which identifies the most malicious prompt embeddings for optimizing and maximizing the output token of the perturbed images.Specifically, we first perform adversarial prompt search, employing reinforcement learning strategies to automatically identify adversarial prompts capable of inducing the LLM component within VLMs to produce verbose outputs. We then conduct vision-aligned perturbation optimization to craft adversarial examples on input images, maximizing the similarity between the perturbed image's visual embeddings and those of the adversarial prompt, thereby constructing malicious images that trigger verbose text generation. Comprehensive experiments on four popular VLMs demonstrate that our method achieves significant advantages in terms of effectiveness, efficiency, and generalization capability.
- Abstract(参考訳): マルチモーダルタスクにおけるビジョン・ランゲージ・モデル(VLM)の顕著な成功により、その展開効率に関する懸念がますます高まっている。
特に、生成過程で消費されるトークンの数は重要な評価基準として現れており、特定の入力がVLMを誘導し、低情報密度の長大な出力を発生させることで、エネルギー消費、遅延、トークンコストを著しく増加させることが示されている。
しかし、既存の手法では、EOSトークンの出現を暗黙的に長大な出力に遅らせるだけで、出力トークン長を明示的な最適化目標として直接最大化することができず、安定性と制御性に欠ける。本稿では、VLM内のLLMコンポーネントを自動で識別する強化学習戦略を用いて、最も悪質なプロンプト埋め込みを最大化するための2段階のフレームワークを用いて、知覚不能な逆転摂動を良画像に注入する新しい動詞文誘導攻撃(VTIA)を提案する。
次に、入力画像上の逆方向の例を作成するために、視線対応の摂動最適化を行い、摂動画像の視覚埋め込みと逆方向のプロンプトとの類似性を最大化し、冗長なテキスト生成を引き起こす悪意のある画像を構築する。
4つのVLMの総合的な実験により,本手法が有効性,効率,一般化能力の面で大きな利点を達成できることが実証された。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Energy-Latency Manipulation of Multi-modal Large Language Models via Verbose Samples [63.9198662100875]
本稿では,知覚不能な摂動を発生させることにより,推論中に高エネルギー遅延コストを誘導することを目的とする。
生成シーケンスの長さを最大化することにより、高エネルギーレイテンシコストを操作できることが判明した。
実験により,我々の冗長サンプルは生成シーケンスの長さを大きく拡張できることが示された。
論文 参考訳(メタデータ) (2024-04-25T12:11:38Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。