Fugu-MT 論文翻訳(概要): From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection

論文の概要: From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection

arxiv url: http://arxiv.org/abs/2412.10198v1
Date: Fri, 13 Dec 2024 15:15:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:49.007465
Title: From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection
Title（参考訳）: 同盟国から敵国へ:敵対的注入によるLDMツールカートリングの操作
Authors: Haowei Wang, Rupeng Zhang, Junjie Wang, Mingyang Li, Yuekai Huang, Dandan Wang, Qing Wang,
Abstract要約: ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
参考スコア（独自算出の注目度）: 11.300387488829035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool-calling has changed Large Language Model (LLM) applications by integrating external tools, significantly enhancing their functionality across diverse tasks. However, this integration also introduces new security vulnerabilities, particularly in the tool scheduling mechanisms of LLM, which have not been extensively studied. To fill this gap, we present ToolCommander, a novel framework designed to exploit vulnerabilities in LLM tool-calling systems through adversarial tool injection. Our framework employs a well-designed two-stage attack strategy. Firstly, it injects malicious tools to collect user queries, then dynamically updates the injected tools based on the stolen information to enhance subsequent attacks. These stages enable ToolCommander to execute privacy theft, launch denial-of-service attacks, and even manipulate business competition by triggering unscheduled tool-calling. Notably, the ASR reaches 91.67% for privacy theft and hits 100% for denial-of-service and unscheduled tool calling in certain cases. Our work demonstrates that these vulnerabilities can lead to severe consequences beyond simple misuse of tool-calling systems, underscoring the urgent need for robust defensive strategies to secure LLM Tool-calling systems.
Abstract（参考訳）: ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更し、さまざまなタスクにわたって機能を大幅に強化した。しかし、この統合は、特に広く研究されていないLSMのツールスケジューリングメカニズムにおいて、新しいセキュリティ脆弱性も導入している。このギャップを埋めるために,LLMツール呼び出しシステムの脆弱性を逆ツール注入によって悪用する新しいフレームワークであるToolCommanderを提案する。我々のフレームワークは、よく設計された2段階攻撃戦略を採用している。まず、悪意のあるツールを注入してユーザクエリを収集し、次に盗まれた情報に基づいて注入されたツールを動的に更新し、その後の攻撃を強化する。これらのステージによって、ToolCommanderは、プライバシ盗難の実行、サービス拒否攻撃の起動、さらには予定外のツール呼び出しをトリガーしてビジネス競争を操作できる。特に、ASRはプライバシ盗難で91.67%に達し、特定のケースではサービス拒否と未スケジュールのツール呼び出しで100%に達する。我々の研究は、これらの脆弱性がツールコールシステムの単純な誤用以上の深刻な結果をもたらすことを実証し、LDMツールコールシステムを保護するための堅牢な防御戦略を緊急に必要とすることを明確にしている。

関連論文リスト

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-04T06:38:59Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Prompt Injection Attack to Tool Selection in LLM Agents [74.90338504778781]
textitToolHijackerは、no-boxシナリオにおける新しいプロンプトインジェクション攻撃ツール選択である。 ToolHijackerは、LLMエージェントのツール選択プロセスを操作するために、悪意のあるツールドキュメントをツールライブラリに注入する。 ToolHijackerは非常に効果的で、既存の手動および自動プロンプトインジェクション攻撃よりも大幅に優れています。
論文参考訳（メタデータ） (2025-04-28T13:36:43Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Les Dissonances: Cross-Tool Harvesting and Polluting in Multi-Tool Empowered LLM Agents [15.15485816037418]
本稿では,マルチツール対応LLMエージェントにおけるタスク制御フローのシステマティックセキュリティ解析について述べる。複数の攻撃ベクトルを含む新しい脅威であるクロスツールハーベスティングとポリッティング(XTHP)を同定する。この脅威の影響を理解するために,我々は,XTHP攻撃を受けやすい現実世界のエージェントツールを自動的に検出する動的スキャンツールであるChordを開発した。
論文参考訳（メタデータ） (2025-04-04T01:41:06Z)
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクを扱うためにますます強力になっている。 LLMエージェント用に設計された統一レッドチーム化フレームワークであるUDoraを,エージェント自身の推論プロセスを動的に活用し,悪意のある動作に強制する。
論文参考訳（メタデータ） (2025-02-28T21:30:28Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System [13.23705767032468]
情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。 LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。
論文参考訳（メタデータ） (2025-02-17T02:15:46Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文参考訳（メタデータ） (2024-12-21T16:17:48Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
The Dark Side of Function Calling: Pathways to Jailbreaking Large Language Models [8.423787598133972]
本稿では,大規模言語モデル(LLM)の関数呼び出しプロセスにおける重大な脆弱性を明らかにする。本稿では,アライメントの相違,ユーザ強制,厳密な安全フィルタの欠如を生かした,新しい"jailbreak function"攻撃手法を提案する。本研究は,LLMの機能呼び出し機能において,緊急のセキュリティ対策の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-07-25T10:09:21Z)
InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated Large Language Model Agents [3.5248694676821484]
IPI攻撃に対するツール統合LDMエージェントの脆弱性を評価するためのベンチマークであるInjecAgentを紹介する。 InjecAgentは17の異なるユーザーツールと62の攻撃ツールをカバーする1,054のテストケースで構成されている。エージェントはIPI攻撃に対して脆弱であり、ReAct-prompted GPT-4は24%の時間攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-03-05T06:21:45Z)
Large Language Models as Tool Makers [85.00361145117293]
我々はLLM A s Tool Makers (LATM) と呼ばれるクローズドループフレームワークを導入する。ツール作成: 1 つのツール作成: LLM がタスクセットのためのツールを作成するツールメーカとして機能する 2 つのツール使用: 別の LLM がツールユーザとして機能し、ツールメーカが問題解決のために構築したツールを適用する。
論文参考訳（メタデータ） (2023-05-26T17:50:11Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。