Fugu-MT 論文翻訳(概要): WIPI: A New Web Threat for LLM-Driven Web Agents

論文の概要: WIPI: A New Web Threat for LLM-Driven Web Agents

arxiv url: http://arxiv.org/abs/2402.16965v1
Date: Mon, 26 Feb 2024 19:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 18:52:28.511105
Title: WIPI: A New Web Threat for LLM-Driven Web Agents
Title（参考訳）: WIPI: LLM駆動Webエージェントのための新しいWeb脅威
Authors: Fangzhou Wu, Shutong Wu, Yulong Cao, Chaowei Xiao
Abstract要約: 我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。 WIPIを成功させるためには、ブラックボックス環境で動作させる。提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
参考スコア（独自算出の注目度）: 28.651763099760664
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the fast development of large language models (LLMs), LLM-driven Web Agents (Web Agents for short) have obtained tons of attention due to their superior capability where LLMs serve as the core part of making decisions like the human brain equipped with multiple web tools to actively interact with external deployed websites. As uncountable Web Agents have been released and such LLM systems are experiencing rapid development and drawing closer to widespread deployment in our daily lives, an essential and pressing question arises: "Are these Web Agents secure?". In this paper, we introduce a novel threat, WIPI, that indirectly controls Web Agent to execute malicious instructions embedded in publicly accessible webpages. To launch a successful WIPI works in a black-box environment. This methodology focuses on the form and content of indirect instructions within external webpages, enhancing the efficiency and stealthiness of the attack. To evaluate the effectiveness of the proposed methodology, we conducted extensive experiments using 7 plugin-based ChatGPT Web Agents, 8 Web GPTs, and 3 different open-source Web Agents. The results reveal that our methodology achieves an average attack success rate (ASR) exceeding 90% even in pure black-box scenarios. Moreover, through an ablation study examining various user prefix instructions, we demonstrated that the WIPI exhibits strong robustness, maintaining high performance across diverse prefix instructions.
Abstract（参考訳）: 大規模言語モデル(LLM)の急速な開発に伴い、LLM主導のWebエージェント(略してWeb Agents)は、複数のWebツールを備えた人間の脳のような決定を、外部にデプロイされたWebサイトと積極的に対話する上で、LCMが中心となる機能のために、多くの注目を集めている。 webエージェントがリリースされ、そのようなllmシステムが急速に開発され、私たちの日常生活で広く展開されるようになるにつれ、本質的で差し迫った疑問が生まれます。本稿では,webエージェントを間接的に制御して,公開webページに埋め込まれた悪意のある命令を実行する,新たな脅威であるwipiを紹介する。 WIPIを成功させるためには、ブラックボックス環境で動作する。この方法論は、外部ウェブページ内の間接命令の形式と内容に焦点を当て、攻撃の効率とステルス性を高める。提案手法の有効性を評価するため,7つのプラグインベースのChatGPT Web Agent,8つのWeb GPT,および3つの異なるオープンソースWeb Agentを用いた広範囲な実験を行った。その結果,純粋なブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることが判明した。さらに, 各種ユーザプレフィックス命令に対するアブレーション調査を通じて, WIPIは強い堅牢性を示し, 多様なプレフィックス命令に対して高い性能を維持していることを示した。

関連論文リスト

Context manipulation attacks : Web agents are susceptible to corrupted memory [37.66661108936654]
Plan Injection"は、これらのエージェントの内部タスク表現を、この脆弱なコンテキストをターゲットとして破壊する、新しいコンテキスト操作攻撃である。プランインジェクションはロバスト・プロンプト・インジェクション・ディフェンスを回避し,攻撃成功率を同等のプロンプト・ベース・アタックの最大3倍に向上することを示す。この結果から,安全なメモリ処理はエージェントシステムにおける第一級の関心事であることが示唆された。
論文参考訳（メタデータ） (2025-06-18T14:29:02Z)
Mind the Web: The Security of Web Use Agents [8.863542098424558]
攻撃者は、悪意のあるコンテンツをWebページに埋め込むことで、Web利用エージェントの高特権能力を活用できることを示す。本稿では,攻撃を明白にするのではなく,悪質なコマンドを有用なタスクガイダンスとして設定するタスクアラインインジェクション手法を提案する。本稿では,監視機構,実行制約,タスク認識推論技術などを含む包括的緩和戦略を提案する。
論文参考訳（メタデータ） (2025-06-08T13:59:55Z)
WebCoT: Enhancing Web Agent Reasoning by Reconstructing Chain-of-Thought in Reflection, Branching, and Rollback [74.82886755416949]
有効なWebエージェントに必要な重要な推論スキルを同定する。我々はエージェントの推論アルゴリズムを連鎖論理に再構成する。このアプローチは、複数のベンチマークで大幅に改善される。
論文参考訳（メタデータ） (2025-05-26T14:03:37Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
WASP: Benchmarking Web Agent Security Against Prompt Injection Attacks [36.97842000562324]
WASPと呼ばれるベンチマークでは、現実的なWebエージェントのハイジャックと、それらをテストするための独立した環境が導入されている。我々の評価は、高度な推論能力を持つモデルに支えられたAIエージェントでさえ、低便宜な人手によるプロンプトインジェクションの影響を受けやすいことを示している。エージェントは16～86%の時間で敵の指示を実行開始するが、0～17%の時間しか目標を達成できない。
論文参考訳（メタデータ） (2025-04-22T17:51:03Z)
Proposer-Agent-Evaluator(PAE): Autonomous Skill Discovery For Foundation Model Internet Agents [64.75036903373712]
Proposer-Agent-Evaluatorは、基礎モデルエージェントが野生のスキルを自律的に発見し、実践することを可能にする学習システムである。 PAEの中心となるタスクプロポーサは、エージェントがコンテキスト情報で実践するためのタスクを自律的に提案するコンテキスト対応タスクプロポーサである。成功評価は、エージェントがRLを介してポリシーを洗練するための報酬信号として機能する。
論文参考訳（メタデータ） (2024-12-17T18:59:50Z)
AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations [18.820883566002543]
MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、多くのWebタスクを自律的に実行することができる。 Webエージェントを構築するための現在の戦略は、(i)基礎となるMLLMの一般化可能性と、(ii)Web関連タスクにおけるMLLMの大規模微調整によるその操縦性に依存している。そこで我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間のデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする。
論文参考訳（メタデータ） (2024-11-20T16:54:15Z)
Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。提案手法はまず,対象領域の実証から意図を教師なしで発見する。我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文参考訳（メタデータ） (2024-10-29T21:37:04Z)
AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。 DPOを用いた逆プロンプトモデルの訓練と最適化を行う。従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文参考訳（メタデータ） (2024-10-22T20:18:26Z)
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。 AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文参考訳（メタデータ） (2024-10-17T17:50:38Z)
Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文参考訳（メタデータ） (2024-10-09T11:01:29Z)
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。 IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文参考訳（メタデータ） (2024-07-09T17:33:24Z)
Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。 AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文参考訳（メタデータ） (2024-06-18T17:32:48Z)
WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。 WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。 BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文参考訳（メタデータ） (2024-03-12T14:58:45Z)
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。 GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文参考訳（メタデータ） (2024-01-25T03:33:18Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。