論文の概要: Preference Redirection via Attention Concentration: An Attack on Computer Use Agents
- arxiv url: http://arxiv.org/abs/2604.08005v1
- Date: Thu, 09 Apr 2026 09:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.82868
- Title: Preference Redirection via Attention Concentration: An Attack on Computer Use Agents
- Title(参考訳): 注意集中による選好リダイレクト:コンピュータ利用エージェントへの攻撃
- Authors: Dominik Seip, Matthias Hein,
- Abstract要約: PRAC(PRAC)は,ステルスな敵パッチに注意を向けることで,モデルの内部的嗜好を操作できる新しい攻撃法である。
PRACは、オンラインショッピングプラットフォーム上でのCUAの選択プロセスを、選択したターゲット製品に向けて操作可能であることを示す。
- 参考スコア(独自算出の注目度): 14.420557955942916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in multimodal foundation models have enabled the development of Computer Use Agents (CUAs) capable of autonomously interacting with GUI environments. As CUAs are not restricted to certain tools, they allow to automate more complex agentic tasks but at the same time open up new security vulnerabilities. While prior work has concentrated on the language modality, the vulnerability of the vision modality has received less attention. In this paper, we introduce PRAC, a novel attack that, unlike prior work targeting the VLM output directly, manipulates the model's internal preferences by redirecting its attention toward a stealthy adversarial patch. We show that PRAC is able to manipulate the selection process of a CUA on an online shopping platform towards a chosen target product. While we require white-box access to the model for the creation of the attack, we show that our attack generalizes to fine-tuned versions of the same model, presenting a critical threat as multiple companies build specific CUAs based on open weights models.
- Abstract(参考訳): マルチモーダル基盤モデルの進歩により、GUI環境と自律的に対話できるコンピュータ利用エージェント(CUA)の開発が可能になった。
CUAsは特定のツールに制限されないため、より複雑なエージェントタスクを自動化すると同時に、新たなセキュリティ脆弱性を開くことができる。
以前の研究は言語のモダリティに集中していたが、視覚のモダリティの脆弱性はそれほど注目されなかった。
本稿では,VLM出力を直接ターゲットとした従来の作業とは異なり,その注意をステルスな敵パッチに向けることで,モデルの内的嗜好を操作できるPRACを提案する。
PRACは、オンラインショッピングプラットフォーム上でのCUAの選択プロセスを、選択したターゲット製品に向けて操作可能であることを示す。
攻撃を発生させるためには、モデルにホワイトボックスアクセスが必要であるが、我々の攻撃は、同じモデルの微調整されたバージョンに一般化し、オープンウェイトモデルに基づいた特定のCUAを構築する複数の企業にとって重大な脅威となることを示す。
関連論文リスト
- CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - BackdoorAgent: A Unified Framework for Backdoor Attacks on LLM-based Agents [58.83028403414688]
大規模言語モデル(LLM)エージェントは、計画、メモリ、ツールの使用を組み合わせた多段階ワークフローを通じてタスクを実行する。
エージェントワークフローの特定のステージに注入されたバックドアトリガーは、複数の中間状態を通して持続し、下流出力に悪影響を及ぼす可能性がある。
LLMエージェントにおけるバックドア脅威を統一したエージェント中心のビューを提供するモジュールおよびステージアウェアフレームワークである textbfBackdoorAgent を提案する。
論文 参考訳(メタデータ) (2026-01-08T03:49:39Z) - Adversarial Confusion Attack: Disrupting Multimodal Large Language Models [1.4037095606573826]
マルチモーダル大言語モデル(MLLM)に対する新たな脅威クラスであるAdversarial Confusion Attackを導入する。
ジェイルブレイクやターゲットの誤分類とは異なり、目標は、モデルが不整合または確実な出力を生成するような、系統的な破壊を誘発することである。
現実的な応用としては、MLLMを搭載したAIエージェントが確実に動作しないように、そのような敵対的なイメージをウェブサイトに埋め込むことがある。
論文 参考訳(メタデータ) (2025-11-25T17:00:31Z) - TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models [63.51290426425441]
バックドア付きVLAエージェントは、プレインジェクトされたバックドアによって隠蔽的にトリガーされ、敵のアクションを実行することができる。
我々は,VLAモデルに対するターゲットバックドア攻撃について検討し,ブラックボックスファインチューニングによる攻撃を可能にする新しいフレームワークであるTabVLAを紹介した。
我々の研究は、バックドア操作をターゲットにしたVLAモデルの脆弱性を強調し、より高度な防御の必要性を強調します。
論文 参考訳(メタデータ) (2025-10-13T02:45:48Z) - Mind the Gap: Comparing Model- vs Agentic-Level Red Teaming with Action-Graph Observability on GPT-OSS-20B [1.036334370262262]
本稿では,20ビリオンパラメータのオープンソースモデルであるGPT-OSS-20Bの比較レッドチーム化分析を行う。
評価の結果,モデルレベルとエージェントレベルの脆弱性プロファイルの根本的な違いが明らかになった。
エージェントレベルの反復攻撃は、モデルレベルで完全に失敗する目標を妥協することに成功した。
論文 参考訳(メタデータ) (2025-09-21T22:18:34Z) - Cuckoo Attack: Stealthy and Persistent Attacks Against AI-IDE [64.47951172662745]
Cuckoo Attackは、悪意のあるペイロードを構成ファイルに埋め込むことで、ステルス性と永続的なコマンド実行を実現する新しい攻撃である。
攻撃パラダイムを初期感染と持続性という2つの段階に分類する。
当社は、ベンダーが製品のセキュリティを評価するために、実行可能な7つのチェックポイントを提供しています。
論文 参考訳(メタデータ) (2025-09-19T04:10:52Z) - A Systematization of Security Vulnerabilities in Computer Use Agents [1.3560089220432787]
我々は、現実のCUAのシステム的脅威分析と、敵条件下でのテストを行う。
CUAパラダイム特有のリスクのクラスを7つ同定し、3つの具体的なエクスプロイトシナリオを詳細に分析する。
これらのケーススタディは、現在のCUA実装にまたがるより深いアーキテクチャ上の欠陥を明らかにします。
論文 参考訳(メタデータ) (2025-07-07T19:50:21Z) - Poison Once, Control Anywhere: Clean-Text Visual Backdoors in VLM-based Mobile Agents [54.35629963816521]
この研究は、VLMベースのモバイルエージェントをターゲットにした最初のクリーンテキストバックドアアタックであるVIBMAを紹介する。
この攻撃は、視覚的な入力だけを変更することによって、悪意ある振る舞いをモデルに注入する。
クリーンタスクの動作を保ちながら高い成功率を達成できることを示す。
論文 参考訳(メタデータ) (2025-06-16T08:09:32Z) - Progent: Programmable Privilege Control for LLM Agents [46.31581986508561]
本稿では,大規模言語モデルエージェントをセキュアにするための最初の特権制御フレームワークであるProgentを紹介する。
Progentは、潜在的に悪意のあるものをブロックしながら、ユーザタスクに必要なツールコールの実行をエージェントに制限することで、ツールレベルでのセキュリティを強化する。
モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、既存のエージェントの実装に最小限の変更しか必要としません。
論文 参考訳(メタデータ) (2025-04-16T01:58:40Z) - Hiding-in-Plain-Sight (HiPS) Attack on CLIP for Targetted Object Removal from Images [3.537369004801589]
Hiding-in-Plain-Sight (HiPS) 攻撃はターゲットオブジェクトを選択的に隠蔽することでモデル予測を微調整する
本稿では,HPS-clsとHiPS-capの2種類のHiPS攻撃モデルを提案し,下流画像キャプションモデルへの転送の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T20:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。