論文の概要: Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System
- arxiv url: http://arxiv.org/abs/2502.11358v1
- Date: Mon, 17 Feb 2025 02:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:13:29.959746
- Title: Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System
- Title(参考訳): LLMツール学習システムにおける情報盗難攻撃のための動的コマンド生成
- Authors: Ziyou Jiang, Mingyang Li, Guowei Yang, Junjie Wang, Yuekai Huang, Zhiyuan Chang, Qing Wang,
- Abstract要約: 情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。
LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。
- 参考スコア(独自算出の注目度): 13.23705767032468
- License:
- Abstract: Information theft attacks pose a significant risk to Large Language Model (LLM) tool-learning systems. Adversaries can inject malicious commands through compromised tools, manipulating LLMs to send sensitive information to these tools, which leads to potential privacy breaches. However, existing attack approaches are black-box oriented and rely on static commands that cannot adapt flexibly to the changes in user queries and the invocation chain of tools. It makes malicious commands more likely to be detected by LLM and leads to attack failure. In this paper, we propose AutoCMD, a dynamic attack comment generation approach for information theft attacks in LLM tool-learning systems. Inspired by the concept of mimicking the familiar, AutoCMD is capable of inferring the information utilized by upstream tools in the toolchain through learning on open-source systems and reinforcement with target system examples, thereby generating more targeted commands for information theft. The evaluation results show that AutoCMD outperforms the baselines with +13.2% $ASR_{Theft}$, and can be generalized to new tool-learning systems to expose their information leakage risks. We also design four defense methods to effectively protect tool-learning systems from the attack.
- Abstract(参考訳): 情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。
悪意のあるコマンドを不正なツールを通じて注入し、LSMを操作してこれらのツールに機密情報を送信することで、潜在的なプライバシー侵害につながる可能性がある。
しかし、既存の攻撃アプローチはブラックボックス指向であり、ユーザクエリの変更やツールの呼び出しチェーンに柔軟に対応できない静的コマンドに依存している。
悪意のあるコマンドがLSMによって検出される可能性が高くなり、攻撃の失敗につながる。
本稿では,LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。
AutoCMDは、慣れ親しんだ情報を模倣するという概念にインスパイアされ、オープンソースシステムの学習とターゲットシステムの例による強化を通じて、ツールチェーンの上流ツールが利用する情報を推測することができるため、情報盗難のためのよりターゲットされたコマンドを生成することができる。
評価の結果、AutoCMDは+13.2%$ASR_{Theft}$でベースラインを上回り、新しいツール学習システムに一般化して情報漏洩リスクを明らかにすることができることがわかった。
また,ツール学習システムを攻撃から効果的に保護する4つの防御手法を設計する。
関連論文リスト
- From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。
本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文 参考訳(メタデータ) (2024-12-13T15:15:24Z) - Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。
本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。
その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文 参考訳(メタデータ) (2024-11-04T21:42:56Z) - Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。
我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文 参考訳(メタデータ) (2024-10-19T01:00:57Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - MERLIN -- Malware Evasion with Reinforcement LearnINg [26.500149465292246]
本稿では,DQNアルゴリズムとREINFORCEアルゴリズムを用いた強化学習を用いて,最先端の2つのマルウェア検出エンジンに挑戦する手法を提案する。
本手法では,Windows のポータブルな実行ファイルを機能的に損なうことなく変更する動作を複数組み合わせる。
限られた情報しか持たない商用AVでも,REINFORCEは高い回避率を達成できることを実証する。
論文 参考訳(メタデータ) (2022-03-24T10:58:47Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - Dataset Security for Machine Learning: Data Poisoning, Backdoor Attacks,
and Defenses [150.64470864162556]
この作業は体系的に分類され、幅広いデータセット脆弱性とエクスプロイトを議論する。
様々な毒とバックドアの脅威モデルとそれらの関係を記述することに加えて,それらの統一分類法を展開する。
論文 参考訳(メタデータ) (2020-12-18T22:38:47Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。