論文の概要: Physical Prompt Injection Attacks on Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.17383v1
- Date: Sat, 24 Jan 2026 09:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.703572
- Title: Physical Prompt Injection Attacks on Large Vision-Language Models
- Title(参考訳): 大規模視線モデルにおける物理的プロンプト注入攻撃
- Authors: Chen Ling, Kai Hu, Hangcheng Liu, Xingshuo Han, Tianwei Zhang, Changhai Ou,
- Abstract要約: LVLM(Large-Language Models)は、オープンな物理的環境での知覚と推論のために、現実世界のインテリジェントシステムにますます多くデプロイされている。
LVLMによって知覚される物理的物体に悪質なタイポグラフィー命令を埋め込むブラックボックス攻撃であるPhysical Prompt Injection Attack (PPIA)を提案する。
我々は,視覚的質問応答,計画,ナビゲーション,PPIA攻撃成功率最大98%といった実世界のタスクにおいて,10の最先端LVLMのPPIAを評価した。
- 参考スコア(独自算出の注目度): 21.694496200641794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) are increasingly deployed in real-world intelligent systems for perception and reasoning in open physical environments. While LVLMs are known to be vulnerable to prompt injection attacks, existing methods either require access to input channels or depend on knowledge of user queries, assumptions that rarely hold in practical deployments. We propose the first Physical Prompt Injection Attack (PPIA), a black-box, query-agnostic attack that embeds malicious typographic instructions into physical objects perceivable by the LVLM. PPIA requires no access to the model, its inputs, or internal pipeline, and operates solely through visual observation. It combines offline selection of highly recognizable and semantically effective visual prompts with strategic environment-aware placement guided by spatiotemporal attention, ensuring that the injected prompts are both perceivable and influential on model behavior. We evaluate PPIA across 10 state-of-the-art LVLMs in both simulated and real-world settings on tasks including visual question answering, planning, and navigation, PPIA achieves attack success rates up to 98%, with strong robustness under varying physical conditions such as distance, viewpoint, and illumination. Our code is publicly available at https://github.com/2023cghacker/Physical-Prompt-Injection-Attack.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、オープンな物理環境での知覚と推論のために、現実世界のインテリジェントシステムにますます導入されている。
LVLMはインジェクション攻撃に弱いことが知られているが、既存のメソッドは入力チャネルへのアクセスを必要とするか、ユーザクエリの知識に依存する。
LVLMで認識可能な物理オブジェクトに悪意のある文字を埋め込むブラックボックス型クエリ非依存型攻撃であるPhysical Prompt Injection Attack (PPIA)を提案する。
PPIAはモデル、入力、内部パイプラインへのアクセスを必要とせず、視覚的な観察のみを通して動作する。
高度に認識可能な視覚的プロンプトと意味論的に有効な視覚的プロンプトのオフライン選択と時空間的注意によって誘導される戦略的環境認識の配置を組み合わせ、注入されたプロンプトがモデル行動に知覚可能かつ影響力があることを保証する。
我々は,視覚的質問応答,計画,ナビゲーションなどのタスクにおいて,10の最先端LVLMにおけるPPIAを評価するとともに,距離,視点,照明といった様々な物理的条件下で,強い堅牢性を有する攻撃成功率を最大98%まで達成した。
私たちのコードはhttps://github.com/2023chacker/Physical-Prompt-Injection-Attack.comで公開されています。
関連論文リスト
- V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues [69.24378760740171]
本稿では,乱れたシーンにおけるロバスト性の欠如に対する解決策として,ビジュモータ・ポリシー・プールについて考察する。
AFA(Attentive Feature Aggregation)は、タスク関連視覚的キューに自然に出席することを学ぶ軽量でトレーニング可能なプール機構である。
以上の結果から,視覚情報を無視することは,堅牢で汎用的な視覚運動ポリシーの展開に向けた重要なステップであることが示唆された。
論文 参考訳(メタデータ) (2025-11-13T19:31:05Z) - Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models [16.743274500376657]
大きな視覚言語モデル(LVLM)は、しばしばオブジェクト幻覚に悩まされ、その信頼性を損なう。
我々は,モデル内部へのアクセスを必要とせずにLVLM応答を向上させる最適なVPを特定するために,BBVPE(Black-Box Visual Prompt Engineering)を提案する。
提案手法では,候補となるVPのプールを用いて,与えられた入力画像に対して最も有効なVPを動的に選択するルータモデルを訓練する。
論文 参考訳(メタデータ) (2025-04-30T11:58:30Z) - Exploring Typographic Visual Prompts Injection Threats in Cross-Modality Generation Models [64.55456491855678]
GM(Cross-Modality Generation Models)は、様々な生成タスクにおいて顕著な能力を示す。
本稿では,様々なLVLMおよびI2I GMにおいて,Typographic Visual Prompt Injection(TVPI)によって誘発されるパフォーマンスへの影響を包括的に検討する。
ターゲットセマンティクスの異なる視覚的プロンプトの下で,様々なオープンソースおよびクローズドソースのLVLMとI2I GMのTVPIセキュリティリスクを徹底的に評価した。
論文 参考訳(メタデータ) (2025-03-14T15:42:42Z) - Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models [79.60405008196139]
視覚言語行動モデル(VLAM)は、ロボット操作タスクのオープン語彙シナリオにおいて、より良いパフォーマンスを達成するために提案されている。
本稿では,潜在的な物理的脅威に直面したVLAMを包括的に評価する。
論文 参考訳(メタデータ) (2024-09-20T03:02:05Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。