論文の概要: LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents
- arxiv url: http://arxiv.org/abs/2507.10610v1
- Date: Sun, 13 Jul 2025 08:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.777184
- Title: LaSM: Layer-wise Scaling Mechanism for Defending Pop-up Attack on GUI Agents
- Title(参考訳): LaSM:GUIエージェントのポップアップ攻撃防止のためのレイヤワイズスケーリング機構
- Authors: Zihe Yan, Zhuosheng Zhang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)上に構築されたGUIエージェントは,画面ベースのインタラクションタスクにおいて,強力な意思決定能力を示している。
それらはポップアップベースの環境注入攻撃に対して非常に脆弱であり、悪意のある視覚要素が注意を分散させ、安全でないまたは誤った行動を引き起こす。
既存の防御方法は、コストのかかる再訓練を必要とするか、誘導的干渉下では不十分である。
本研究により,MLLMエージェントの注意欠陥は中核的な脆弱性であり,選択的層ワイド変調により効果的に対処できることが判明した。
- 参考スコア(独自算出の注目度): 11.619180675940482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graphical user interface (GUI) agents built on multimodal large language models (MLLMs) have recently demonstrated strong decision-making abilities in screen-based interaction tasks. However, they remain highly vulnerable to pop-up-based environmental injection attacks, where malicious visual elements divert model attention and lead to unsafe or incorrect actions. Existing defense methods either require costly retraining or perform poorly under inductive interference. In this work, we systematically study how such attacks alter the attention behavior of GUI agents and uncover a layer-wise attention divergence pattern between correct and incorrect outputs. Based on this insight, we propose \textbf{LaSM}, a \textit{Layer-wise Scaling Mechanism} that selectively amplifies attention and MLP modules in critical layers. LaSM improves the alignment between model saliency and task-relevant regions without additional training. Extensive experiments across 12 types of pop-up perturbations and 4 different model backbones show that LaSM consistently enhances the defense success rate. When combined with prompt-level alerts, LaSM achieves over 98\% robustness even under strong inductive attacks. Our findings reveal that attention misalignment is a core vulnerability in MLLM agents and can be effectively addressed through selective layer-wise modulation.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)上に構築されたGUIエージェントは,画面ベースのインタラクションタスクにおいて,強力な意思決定能力を示している。
しかし、それらは、悪意のある視覚要素がモデルの注意を逸脱し、安全でない、または誤った行動を引き起こすポップアップベースの環境注入攻撃に対して、非常に脆弱なままである。
既存の防御方法は、コストのかかる再訓練を必要とするか、誘導的干渉下では不十分である。
本研究では,GUIエージェントの注意行動がどのように変化するかを系統的に研究し,正しい出力と誤出力の階層的注意分散パターンを明らかにする。
この知見に基づき、臨界層における注意とMLPモジュールを選択的に増幅する \textit{Layer-wise Scaling Mechanism} である \textbf{LaSM} を提案する。
LaSMは、追加のトレーニングなしで、モデルの正当性とタスク関連領域の整合性を改善する。
12種類のポップアップ摂動と4種類のモデルバックボーンにわたる広範囲な実験により、LaSMは防御成功率を一貫して向上させることが示された。
プロンプトレベルのアラートと組み合わせると、強いインダクティブアタックであっても、LaSMは98%以上のロバスト性を達成する。
本研究により,MLLMエージェントの注意欠陥は中核的な脆弱性であり,選択的層ワイド変調により効果的に対処できることが判明した。
関連論文リスト
- Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection in Multimodal AI Systems [0.0]
本稿では,VLM(Vision-Language Models)におけるスケーリング脆弱性の公開と活用を目的とした,新しい適応型対向フレームワークを提案する。
実験の結果,Chameleonは様々なスケーリング要因に対して84.5%のアタック成功率(ASR)を達成した。
これらの攻撃はエージェントパイプラインを効果的に侵害し、マルチステップタスクにおいて意思決定精度を45%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-04T15:22:28Z) - Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning [89.1856483797116]
MLLMをベースとした組込みエージェントに視覚的バックドアを注入する最初のフレームワークであるBEATを紹介する。
テキストトリガーとは異なり、オブジェクトトリガーは視点や照明の幅が広いため、確実に移植することは困難である。
BEATは攻撃の成功率を最大80%まで達成し、強い良識のあるタスクパフォーマンスを維持します。
論文 参考訳(メタデータ) (2025-10-31T16:50:49Z) - Monitoring LLM-based Multi-Agent Systems Against Corruptions via Node Evaluation [11.369402753246396]
大規模言語モデル(LLM)ベースのマルチエージェントシステム(MAS)は、AIアプリケーションの一般的なパラダイムとなっている。
我々は,MASグラフ内の通信を継続的に監視するMASグラフ構造に対する動的防御パラダイムを提案する。
本手法は既存のMAS防御機構を著しく上回り,信頼性の高いアプリケーションに有効なガードレールを提供する。
論文 参考訳(メタデータ) (2025-10-22T09:43:32Z) - FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction [82.6826848085638]
視覚的ジェイルブレイク攻撃は、洗練されたテキスト攻撃よりも簡単にオープンソースのMLLMを操作することができる。
これらの攻撃は、非常に限られたクロスモデル転送可能性を示し、クローズドソースMLLMの脆弱性を確実に特定することができない。
本稿では,FORCE(Feature Over-Reliance CorrEction)手法を提案する。
論文 参考訳(メタデータ) (2025-09-25T11:36:56Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Screen Hijack: Visual Poisoning of VLM Agents in Mobile Environments [61.808686396077036]
GHOSTは視覚言語モデル(VLM)上に構築された移動体エージェントに特化して設計された最初のクリーンラベルバックドア攻撃である。
本手法は,トレーニングサンプルの一部の視覚入力のみを,対応するラベルや指示を変更することなく操作する。
実世界の6つのAndroidアプリとモバイルに適応した3つのVLMアーキテクチャを対象に,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - TRAP: Targeted Redirecting of Agentic Preferences [3.6293956720749425]
本稿では,拡散型セマンティックインジェクションを用いてエージェントの意思決定を制御する,生成的敵対的フレームワークであるTRAPを紹介する。
提案手法は, 負のプロンプトに基づく劣化と正のセマンティック最適化を組み合わせ, シームズ意味ネットワークとレイアウト対応空間マスキングによって導かれる。
TRAPはLLaVA-34B、Gemma3、Mistral-3.1など主要なモデルで100%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-29T14:57:16Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、隠れたトリガーを介して出力を操作するバックドア攻撃に対して脆弱である。
本稿では,バックドアモデルがトリガ時に不安定な層単位の隠蔽表現を示すという観測を生かした内部一貫性規則化(CROW)を提案する。
CROWは、微調整やバックドアの中立化など、クリーンな参照モデルや知識のトリガを必要とせず、小さなクリーンなデータセットのみを使用して、レイヤ間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。