Fugu-MT 論文翻訳(概要): Adversarial Prompt Injection Attack on Multimodal Large Language Models

論文の概要: Adversarial Prompt Injection Attack on Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2603.29418v1
Date: Tue, 31 Mar 2026 08:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:03.348451
Title: Adversarial Prompt Injection Attack on Multimodal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルに対する逆プロンプトインジェクション攻撃
Authors: Meiwen Ding, Song Xia, Chenqi Kong, Xudong Jiang,
Abstract要約: マルチモーダルな大規模言語モデル(MLLM)は、現実世界のアプリケーションにますます多くデプロイされている。既存のプロンプトインジェクション法は、人間が観察できるテキストプロンプトや知覚可能な視覚プロンプトに依存している。本研究では,強力なクローズドソースMLLMに対する知覚不能な視覚的プロンプトインジェクションについて検討する。
参考スコア（独自算出の注目度）: 21.995939723909796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although multimodal large language models (MLLMs) are increasingly deployed in real-world applications, their instruction-following behavior leaves them vulnerable to prompt injection attacks. Existing prompt injection methods predominantly rely on textual prompts or perceptible visual prompts that are observable by human users. In this work, we study imperceptible visual prompt injection against powerful closed-source MLLMs, where adversarial instructions are embedded in the visual modality. Our method adaptively embeds the malicious prompt into the input image via a bounded text overlay to provide semantic guidance. Meanwhile, the imperceptible visual perturbation is iteratively optimized to align the feature representation of the attacked image with those of the malicious visual and textual targets at both coarse- and fine-grained levels. Specifically, the visual target is instantiated as a text-rendered image and progressively refined during optimization to more faithfully represent the desired semantics and improve transferability. Extensive experiments on two multimodal understanding tasks across multiple closed-source MLLMs demonstrate the superior performance of our approach compared to existing methods.
Abstract（参考訳）: マルチモーダルな大規模言語モデル(MLLM)は、現実のアプリケーションにますます多くデプロイされているが、命令追従の振る舞いは、インジェクション攻撃に弱いままである。既存のプロンプトインジェクション法は、主に人間が観察できるテキストプロンプトや知覚可能な視覚プロンプトに依存している。本研究では,視覚的モダリティに敵対的命令が埋め込まれた強力なクローズドソースMLLMに対して,知覚不能な視覚的プロンプトインジェクションについて検討する。本手法は,有界テキストオーバレイを用いて悪意あるプロンプトを入力画像に適応的に埋め込み,セマンティックガイダンスを提供する。一方、知覚不能な視覚摂動は、攻撃された画像の特徴表現と悪意のある視覚的およびテキスト的ターゲットの特徴表現を、粗いレベルときめ細かいレベルで一致させるように反復的に最適化されている。具体的には、ビジュアルターゲットはテキストレンダリング画像としてインスタンス化され、最適化中に徐々に洗練され、望ましいセマンティクスをより忠実に表現し、転送可能性を改善する。複数のクローズドソースMLLMにまたがる2つのマルチモーダル理解タスクに関する大規模な実験は、既存の手法と比較して、我々のアプローチの優れた性能を示している。

関連論文リスト

Test-Time Computing for Referring Multimodal Large Language Models [143.49848714354698]
そこで我々は,新しいテスト時間適応フレームワークである ControlMLLM++ を提案する。学習可能な視覚的プロンプトを凍ったマルチモーダルな大言語モデルに注入する。
論文参考訳（メタデータ） (2026-02-23T04:42:10Z)
Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文参考訳（メタデータ） (2025-12-06T04:20:13Z)
An Image Is Worth Ten Thousand Words: Verbose-Text Induction Attacks on VLMs [48.05423013052023]
本稿では,良性画像に知覚不能な逆方向の摂動を注入する新しい動詞文誘導攻撃(VTIA)を提案する。まず、敵のプロンプトを自動的に識別する強化学習戦略を用いて、敵のプロンプト検索を行う。次に、入力画像の対角的例を作成するために、視線対応摂動最適化を行い、摂動画像の視覚的埋め込みと対角的プロンプトの類似性を最大化する。
論文参考訳（メタデータ） (2025-11-20T09:03:43Z)
Security Tensors as a Cross-Modal Bridge: Extending Text-Aligned Safety to Vision in LVLM [40.83149588857177]
大規模視覚言語モデル(LVLM)は、複数モーダル入力を処理する視覚モジュールと整列した大言語モデル(LLM)を統合する。セキュリティテンソル(Security tensor) - テキストや視覚のモダリティを通じて推論中に適用されるトレーニング可能な入力ベクトル。
論文参考訳（メタデータ） (2025-07-28T16:59:53Z)
ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。 OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文参考訳（メタデータ） (2025-07-01T16:01:08Z)
Multimodal Prompt Alignment for Facial Expression Recognition [24.470095812039286]
MPA-FERは、引き起こされた視覚的特徴の学習プロセスに対して、きめ細かいセマンティックガイダンスを提供する。我々のフレームワークは、FERベンチマークの3つのベンチマークデータセット上で最先端の手法より優れています。
論文参考訳（メタデータ） (2025-06-26T05:28:57Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。