Fugu-MT 論文翻訳(概要): Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System

論文の概要: Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System

arxiv url: http://arxiv.org/abs/2502.11358v1
Date: Mon, 17 Feb 2025 02:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.022199
Title: Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System
Title（参考訳）: LLMツール学習システムにおける情報盗難攻撃のための動的コマンド生成
Authors: Ziyou Jiang, Mingyang Li, Guowei Yang, Junjie Wang, Yuekai Huang, Zhiyuan Chang, Qing Wang,
Abstract要約: 情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。 LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。
参考スコア（独自算出の注目度）: 13.23705767032468
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Information theft attacks pose a significant risk to Large Language Model (LLM) tool-learning systems. Adversaries can inject malicious commands through compromised tools, manipulating LLMs to send sensitive information to these tools, which leads to potential privacy breaches. However, existing attack approaches are black-box oriented and rely on static commands that cannot adapt flexibly to the changes in user queries and the invocation chain of tools. It makes malicious commands more likely to be detected by LLM and leads to attack failure. In this paper, we propose AutoCMD, a dynamic attack comment generation approach for information theft attacks in LLM tool-learning systems. Inspired by the concept of mimicking the familiar, AutoCMD is capable of inferring the information utilized by upstream tools in the toolchain through learning on open-source systems and reinforcement with target system examples, thereby generating more targeted commands for information theft. The evaluation results show that AutoCMD outperforms the baselines with +13.2% $ASR_{Theft}$, and can be generalized to new tool-learning systems to expose their information leakage risks. We also design four defense methods to effectively protect tool-learning systems from the attack.
Abstract（参考訳）: 情報盗難攻撃は、Large Language Model (LLM)ツール学習システムに重大なリスクをもたらす。悪意のあるコマンドを不正なツールを通じて注入し、LSMを操作してこれらのツールに機密情報を送信することで、潜在的なプライバシー侵害につながる可能性がある。しかし、既存の攻撃アプローチはブラックボックス指向であり、ユーザクエリの変更やツールの呼び出しチェーンに柔軟に対応できない静的コマンドに依存している。悪意のあるコマンドがLSMによって検出される可能性が高くなり、攻撃の失敗につながる。本稿では,LLMツール学習システムにおける情報盗難攻撃に対する動的攻撃コメント生成手法であるAutoCMDを提案する。 AutoCMDは、慣れ親しんだ情報を模倣するという概念にインスパイアされ、オープンソースシステムの学習とターゲットシステムの例による強化を通じて、ツールチェーンの上流ツールが利用する情報を推測することができるため、情報盗難のためのよりターゲットされたコマンドを生成することができる。評価の結果、AutoCMDは+13.2%$ASR_{Theft}$でベースラインを上回り、新しいツール学習システムに一般化して情報漏洩リスクを明らかにすることができることがわかった。また,ツール学習システムを攻撃から効果的に保護する4つの防御手法を設計する。

関連論文リスト

Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文参考訳（メタデータ） (2025-05-01T01:54:00Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
From Allies to Adversaries: Manipulating LLM Tool-Calling through Adversarial Injection [11.300387488829035]
ツールコールは、外部ツールを統合することで、LLM(Large Language Model)アプリケーションを変更した。本稿では,LDMツールコールシステムの脆弱性を利用した対向型ツールインジェクションによる新しいフレームワークであるToolCommanderを提案する。
論文参考訳（メタデータ） (2024-12-13T15:15:24Z)
Extracting Unlearned Information from LLMs with Activation Steering [46.16882599881247]
トレーニング後のモデルからセンシティブな知識を取り除くソリューションとして、アンラーニングが登場した。本研究では,未学習モデルからの正確な情報検索手法として,アクティベーションステアリングを提案する。その結果,未学習モデルからの正確な情報検索が可能であることが示され,現在の未学習手法の深刻な脆弱性が浮き彫りにされている。
論文参考訳（メタデータ） (2024-11-04T21:42:56Z)
Imprompter: Tricking LLM Agents into Improper Tool Use [35.255462653237885]
大規模言語モデル(LLM)エージェントは、生成機械学習とコードインタプリタ、Webブラウジング、メール、より一般的には外部リソースなどのツールを融合した、新興コンピューティングパラダイムである。我々はエージェントベースのシステムのセキュリティ基盤に貢献し、自動的に計算された難読化された敵攻撃の新しいクラスを探索する。
論文参考訳（メタデータ） (2024-10-19T01:00:57Z)
SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Threats, Attacks, and Defenses in Machine Unlearning: A Survey [14.03428437751312]
マシン・アンラーニング(MU)は、Safe AIを達成する可能性から、最近かなりの注目を集めている。この調査は、機械学習における脅威、攻撃、防衛に関する広範な研究のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2024-03-20T15:40:18Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)
MERLIN -- Malware Evasion with Reinforcement LearnINg [26.500149465292246]
本稿では,DQNアルゴリズムとREINFORCEアルゴリズムを用いた強化学習を用いて,最先端の2つのマルウェア検出エンジンに挑戦する手法を提案する。本手法では,Windows のポータブルな実行ファイルを機能的に損なうことなく変更する動作を複数組み合わせる。限られた情報しか持たない商用AVでも,REINFORCEは高い回避率を達成できることを実証する。
論文参考訳（メタデータ） (2022-03-24T10:58:47Z)
Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文参考訳（メタデータ） (2021-10-04T12:20:46Z)
Enhanced Adversarial Strategically-Timed Attacks against Deep Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文参考訳（メタデータ） (2020-02-20T21:39:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。