論文の概要: Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools
- arxiv url: http://arxiv.org/abs/2508.02110v1
- Date: Mon, 04 Aug 2025 06:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.207775
- Title: Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools
- Title(参考訳): Attractive Metadata Attack: LLMエージェントを誘導して悪意ツールを起動する
- Authors: Kanghua Mo, Li Hu, Yucheng Long, Zhihao Li,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.086284534400658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated remarkable capabilities in complex reasoning and decision-making by leveraging external tools. However, this tool-centric paradigm introduces a previously underexplored attack surface: adversaries can manipulate tool metadata -- such as names, descriptions, and parameter schemas -- to influence agent behavior. We identify this as a new and stealthy threat surface that allows malicious tools to be preferentially selected by LLM agents, without requiring prompt injection or access to model internals. To demonstrate and exploit this vulnerability, we propose the Attractive Metadata Attack (AMA), a black-box in-context learning framework that generates highly attractive but syntactically and semantically valid tool metadata through iterative optimization. Our attack integrates seamlessly into standard tool ecosystems and requires no modification to the agent's execution framework. Extensive experiments across ten realistic, simulated tool-use scenarios and a range of popular LLM agents demonstrate consistently high attack success rates (81\%-95\%) and significant privacy leakage, with negligible impact on primary task execution. Moreover, the attack remains effective even under prompt-level defenses and structured tool-selection protocols such as the Model Context Protocol, revealing systemic vulnerabilities in current agent architectures. These findings reveal that metadata manipulation constitutes a potent and stealthy attack surface, highlighting the need for execution-level security mechanisms that go beyond prompt-level defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
しかしながら、このツール中心のパラダイムでは、これまで未調査だった攻撃面が導入されている。 敵は、名前、記述、パラメータスキーマといったツールメタデータを操作して、エージェントの動作に影響を与えることができる。
我々はこれを、モデル内部への即時注入やアクセスを必要とせずに、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威表面として認識する。
この脆弱性を実証し、活用するために、反復最適化によって非常に魅力的だが構文的に意味論的に有効なツールメタデータを生成するブラックボックス・インコンテキスト・ラーニング・フレームワークであるAttractive Metadata Attack (AMA)を提案する。
我々の攻撃は標準ツールエコシステムにシームレスに統合され、エージェントの実行フレームワークを変更する必要はない。
10の現実的でシミュレートされたツール使用シナリオと、さまざまな人気のあるLLMエージェントにわたる大規模な実験は、攻撃の成功率(81\%-95\%)と、プライバシリークの顕著さを一貫して示しており、プライマリタスクの実行に何の影響も受けていない。
さらに、攻撃はプロンプトレベルの防御やModel Context Protocolのような構造化されたツール選択プロトコルの下でも有効であり、現在のエージェントアーキテクチャのシステム的脆弱性を明らかにしている。
これらの結果から,メタデータ操作が強力な,ステルス的な攻撃面を構成することが明らかとなり,即時防御以上の実行レベルセキュリティ機構の必要性が浮き彫りになった。
関連論文リスト
- A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Prompt Injection Attack to Tool Selection in LLM Agents [74.90338504778781]
textitToolHijackerは、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択である。
ToolHijackerは、LLMエージェントのツール選択プロセスを操作するために、悪意のあるツールドキュメントをツールライブラリに注入する。
ToolHijackerは非常に効果的で、既存の手動および自動プロンプトインジェクション攻撃よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-04-28T13:36:43Z) - StruPhantom: Evolutionary Injection Attacks on Black-Box Tabular Agents Powered by Large Language Models [25.579489111240136]
ブラックボックスLSMを用いた表型エージェントを対象とするStruPhantomという新たな攻撃手法を提案する。
我々の攻撃は、フィッシングリンクや悪意のあるコードを含むアプリケーションの応答を強制する上で、ベースラインよりも50%以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-04-14T03:22:04Z) - DrunkAgent: Stealthy Memory Corruption in LLM-Powered Recommender Agents [28.294322726282896]
大規模言語モデル(LLM)を利用したエージェントは、パーソナライズされた振る舞いモデリングを実現するために、リコメンデータシステム(RS)でますます使われている。
本稿では,LSMを用いたリコメンデータエージェントにおけるメモリベースの脆弱性について,初めて体系的に検討する。
我々は,意味論的に意味のある敵の引き金を発生させる新しいブラックボックス攻撃フレームワークDrunkAgentを提案する。
論文 参考訳(メタデータ) (2025-03-31T07:35:40Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。
本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文 参考訳(メタデータ) (2024-12-13T15:15:24Z) - Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。