論文の概要: WIPI: A New Web Threat for LLM-Driven Web Agents
- arxiv url: http://arxiv.org/abs/2402.16965v1
- Date: Mon, 26 Feb 2024 19:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:52:28.511105
- Title: WIPI: A New Web Threat for LLM-Driven Web Agents
- Title(参考訳): WIPI: LLM駆動Webエージェントのための新しいWeb脅威
- Authors: Fangzhou Wu, Shutong Wu, Yulong Cao, Chaowei Xiao
- Abstract要約: 我々は、Web Agentを間接的に制御し、公開されているWebページに埋め込まれた悪意ある命令を実行する、新しい脅威WIPIを導入する。
WIPIを成功させるためには、ブラックボックス環境で動作させる。
提案手法は,純ブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることを達成している。
- 参考スコア(独自算出の注目度): 28.651763099760664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the fast development of large language models (LLMs), LLM-driven Web
Agents (Web Agents for short) have obtained tons of attention due to their
superior capability where LLMs serve as the core part of making decisions like
the human brain equipped with multiple web tools to actively interact with
external deployed websites. As uncountable Web Agents have been released and
such LLM systems are experiencing rapid development and drawing closer to
widespread deployment in our daily lives, an essential and pressing question
arises: "Are these Web Agents secure?". In this paper, we introduce a novel
threat, WIPI, that indirectly controls Web Agent to execute malicious
instructions embedded in publicly accessible webpages. To launch a successful
WIPI works in a black-box environment. This methodology focuses on the form and
content of indirect instructions within external webpages, enhancing the
efficiency and stealthiness of the attack. To evaluate the effectiveness of the
proposed methodology, we conducted extensive experiments using 7 plugin-based
ChatGPT Web Agents, 8 Web GPTs, and 3 different open-source Web Agents. The
results reveal that our methodology achieves an average attack success rate
(ASR) exceeding 90% even in pure black-box scenarios. Moreover, through an
ablation study examining various user prefix instructions, we demonstrated that
the WIPI exhibits strong robustness, maintaining high performance across
diverse prefix instructions.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発に伴い、LLM主導のWebエージェント(略してWeb Agents)は、複数のWebツールを備えた人間の脳のような決定を、外部にデプロイされたWebサイトと積極的に対話する上で、LCMが中心となる機能のために、多くの注目を集めている。
webエージェントがリリースされ、そのようなllmシステムが急速に開発され、私たちの日常生活で広く展開されるようになるにつれ、本質的で差し迫った疑問が生まれます。
本稿では,webエージェントを間接的に制御して,公開webページに埋め込まれた悪意のある命令を実行する,新たな脅威であるwipiを紹介する。
WIPIを成功させるためには、ブラックボックス環境で動作する。
この方法論は、外部ウェブページ内の間接命令の形式と内容に焦点を当て、攻撃の効率とステルス性を高める。
提案手法の有効性を評価するため,7つのプラグインベースのChatGPT Web Agent,8つのWeb GPT,および3つの異なるオープンソースWeb Agentを用いた広範囲な実験を行った。
その結果,純粋なブラックボックスシナリオにおいても平均攻撃成功率(ASR)が90%を超えることが判明した。
さらに, 各種ユーザプレフィックス命令に対するアブレーション調査を通じて, WIPIは強い堅牢性を示し, 多様なプレフィックス命令に対して高い性能を維持していることを示した。
関連論文リスト
- AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations [18.820883566002543]
MLLM(Multimodal Large Language Models)を利用する最先端のマルチモーダルWebエージェントは、多くのWebタスクを自律的に実行することができる。
Webエージェントを構築するための現在の戦略は、(i)基礎となるMLLMの一般化可能性と、(ii)Web関連タスクにおけるMLLMの大規模微調整によるその操縦性に依存している。
そこで我々はAdaptAgentフレームワークを導入し、プロプライエタリなマルチモーダルWebエージェントとオープンなマルチモーダルWebエージェントの両方が、人間のデモをほとんど使わずに新しいWebサイトやドメインに適応できるようにする。
論文 参考訳(メタデータ) (2024-11-20T16:54:15Z) - Auto-Intent: Automated Intent Discovery and Self-Exploration for Large Language Model Web Agents [68.22496852535937]
本稿では,事前訓練された大規模言語モデル(LLM)を,直接微調整なしで対象ドメインのエージェントとして適用する手法であるAuto-Intentを紹介する。
提案手法はまず,対象領域の実証から意図を教師なしで発見する。
我々は、エージェントの過去の観察と行動から次の意図を予測するために、意図予測器を訓練する。
論文 参考訳(メタデータ) (2024-10-29T21:37:04Z) - AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents [22.682464365220916]
AdvWebは、Webエージェント向けに設計された新しいブラックボックス攻撃フレームワークである。
DPOを用いた逆プロンプトモデルの訓練と最適化を行う。
従来のアプローチとは異なり、我々の逆文字列注入はステルスと制御を維持している。
論文 参考訳(メタデータ) (2024-10-22T20:18:26Z) - AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents [52.13695464678006]
本研究は, 観察空間と行動空間を簡略化することで, LLMベースのWebエージェントを強化する。
AgentOccam は以前の最先端および同時処理を 9.8 (+29.4%) と 5.9 (+15.8%) で上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:50:38Z) - Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems [6.480532634073257]
本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。
この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。
そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
論文 参考訳(メタデータ) (2024-10-09T11:01:29Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - WorkArena: How Capable Are Web Agents at Solving Common Knowledge Work Tasks? [83.19032025950986]
本稿では,Webブラウザを介してソフトウェアと対話する大規模言語モデルベースエージェントについて検討する。
WorkArenaは、広く使用されているServiceNowプラットフォームに基づく33のタスクのベンチマークである。
BrowserGymは、そのようなエージェントの設計と評価のための環境である。
論文 参考訳(メタデータ) (2024-03-12T14:58:45Z) - WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models [65.18602126334716]
既存のWebエージェントは1つの入力モダリティしか処理せず、単純化されたWebシミュレータや静的なWebスナップショットでのみ評価される。
我々は,WebVoyagerを紹介した。LMM(Large Multimodal Model)を利用したWebエージェントで,現実世界のWebサイトと対話することで,エンド・ツー・エンドでのユーザ指示を完了することができる。
GPT-4(All Tools)とWebVoyager(text-only)の両方のパフォーマンスを大幅に上回る、59.1%のタスク成功率を実現していることを示す。
論文 参考訳(メタデータ) (2024-01-25T03:33:18Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。