論文の概要: If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.19844v1
- Date: Tue, 21 Apr 2026 11:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.643566
- Title: If you're waiting for a sign... that might not be it! Mitigating Trust Boundary Confusion from Visual Injections on Vision-Language Agentic Systems
- Title(参考訳): もしあなたがサインを待っているなら...それは違うかもしれない!視覚-言語エージェントシステムへの視覚注入からの信頼境界の融合を緩和する
- Authors: Jiamin Chang, Minhui Xue, Ruoxi Sun, Shuchao Pang, Salil S. Kanhere, Hammond Pearce,
- Abstract要約: 環境信号は、エージェントの挙動に影響を与えるべきバンド内信号である。
同様の信号は、誤解を招く視覚注射として動作させることもできる。
現在のLVLMベースのエージェントは、このトレードオフを確実にバランスすることができない。
意思決定から認識を分離する多エージェント防衛フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.899383110296622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in embodied Vision-Language Agentic Systems (VLAS), powered by large vision-language models (LVLMs), enable AI systems to perceive and reason over real-world scenes. Within this context, environmental signals such as traffic lights are essential in-band signals that can and should influence agent behavior. However, similar signals could also be crafted to operate as misleading visual injections, overriding user intent and posing security risks. This duality creates a fundamental challenge: agents must respond to legitimate environmental cues while remaining robust to misleading ones. We refer to this tension as trust boundary confusion. To study this behavior, we design a dual-intent dataset and evaluation framework, through which we show that current LVLM-based agents fail to reliably balance this trade-off, either ignoring useful signals or following harmful ones. We systematically evaluate 7 LVLM agents across multiple embodied settings under both structure-based and noise-based visual injections. To address these vulnerabilities, we propose a multi-agent defense framework that separates perception from decision-making to dynamically assess the reliability of visual inputs. Our approach significantly reduces misleading behaviors while preserving correct responses and provides robustness guarantees under adversarial perturbations. The code of the evaluation framework and artifacts are made available at https://anonymous.4open.science/r/Visual-Prompt-Inject.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)を利用した視覚言語エージェントシステム(VLAS)の最近の進歩により、AIシステムは現実世界のシーンを知覚し、推論することができる。
この文脈の中では、信号機のような環境信号は、エージェントの動作に影響を与え、影響を及ぼすために必要な帯域内信号である。
しかし、同様の信号は、誤解を招くビジュアルインジェクション、ユーザの意図を覆い、セキュリティ上のリスクを生じさせるものとして動作させることもできる。
この二重性は、基本的な課題を生み出します。エージェントは正当な環境基準に応答し、誤解を招くものに対して堅牢なままでいなければなりません。
我々はこの緊張を信頼境界の混乱と呼ぶ。
この振る舞いを研究するために、我々は、現在のLVLMベースのエージェントが、有用な信号を無視したり、有害な信号に従うことなく、確実にこのトレードオフのバランスをとることができないことを示すデュアルインテントデータセットと評価フレームワークを設計する。
構造ベースおよびノイズベースビジュアルインジェクションを用いて,複数の実施環境において7つのLVLMエージェントを系統的に評価した。
これらの脆弱性に対処するため,視覚入力の信頼性を動的に評価するために,認識と意思決定を分離するマルチエージェント・ディフェンス・フレームワークを提案する。
提案手法は, 正しい応答を保ちつつ, 誤伝行動を大幅に低減し, 対向的摂動下での堅牢性を保証する。
評価フレームワークとアーティファクトのコードはhttps://anonymous.4open.science/r/Visual-Prompt-Injectで公開されている。
関連論文リスト
- SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues [50.928203120795786]
本研究では,視覚言語モデルにおけるマルチモーダル安全性の挙動を,単純な意味的手がかりによって評価できるかどうかを考察する。
シーン内容を変更することなく、テキスト、視覚、認知の介入を制御できるセマンティック・ステアリング・フレームワークを導入する。
論文 参考訳(メタデータ) (2026-03-19T16:18:00Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - AgentSight: System-Level Observability for AI Agents Using eBPF [10.37440633887049]
既存のツールは、エージェントの高レベルな意図(LSMプロンプトを介して)または低レベルな行動(例えば、システムコール)を観察するが、これら2つのビューを関連付けることはできない。
AgentOpsはハイブリッドアプローチを使用して,このセマンティックギャップをブリッジする,AgentOpsオブザーバビリティフレームワークです。
AgentSightはTLS暗号化されたLLMトラフィックをインターセプトしてセマンティックインテントを抽出し、カーネルイベントを監視してシステム全体の効果を観察し、これら2つのストリームをプロセス境界を越えて因果的に関連付ける。
論文 参考訳(メタデータ) (2025-08-02T01:43:39Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Deceptive Automated Interpretability: Language Models Coordinating to Fool Oversight Systems [0.0]
言語モデルが検出を回避した誤認的な説明を生成できることを示す。
我々のエージェントは、一見無邪気な説明で情報を隠蔽するために、ステガノグラフィー手法を使っている。
試験された全てのLSMエージェントは、基準ラベルに匹敵する高い解釈可能性のスコアを達成しつつ、監督者を欺くことができる。
論文 参考訳(メタデータ) (2025-04-10T15:07:10Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。