Fugu-MT 論文翻訳(概要): Towards Action Hijacking of Large Language Model-based Agent

論文の概要: Towards Action Hijacking of Large Language Model-based Agent

arxiv url: http://arxiv.org/abs/2412.10807v1
Date: Sat, 14 Dec 2024 12:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.826626
Title: Towards Action Hijacking of Large Language Model-based Agent
Title（参考訳）: 大規模言語モデルベースエージェントの行動ハイジャックに向けて
Authors: Yuyang Zhang, Kangjie Chen, Xudong Jiang, Yuxiang Sun, Run Wang, Lina Wang,
Abstract要約: 我々は、ブラックボックスエージェントシステムのアクションプランを操作するための新しいハイジャック攻撃であるNoneを紹介する。提案手法は, 安全フィルタの平均バイパス率92.7%を達成した。
参考スコア（独自算出の注目度）: 39.19067800226033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past few years, intelligent agents powered by large language models (LLMs) have achieved remarkable progress in performing complex tasks. These LLM-based agents receive queries as tasks and decompose them into various subtasks via the equipped LLMs to guide the action of external entities (\eg{}, tools, AI-agents) to answer the questions from users. Empowered by their exceptional capabilities of understanding and problem-solving, they are widely adopted in labor-intensive sectors including healthcare, finance, code completion, \etc{} At the same time, there are also concerns about the potential misuse of these agents, prompting the built-in safety guards from service providers. To circumvent the built-in guidelines, the prior studies proposed a multitude of attacks including memory poisoning, jailbreak, and prompt injection. These studies often fail to maintain effectiveness across safety filters employed by agents due to the restricted privileges and the harmful semantics in queries. In this paper, we introduce \Name, a novel hijacking attack to manipulate the action plans of black-box agent system. \Name first collects the action-aware memory through prompt theft from long-term memory. It then leverages the internal memory retrieval mechanism of the agent to provide an erroneous context. The huge gap between the latent spaces of the retriever and safety filters allows our method to bypass the detection easily. Extensive experimental results demonstrate the effectiveness of our apporach (\eg{}, 99.67\% ASR). Besides, our approach achieved an average bypass rate of 92.7\% for safety filters.
Abstract（参考訳）: 近年,大規模言語モデル(LLM)を利用したインテリジェントエージェントは,複雑なタスクの実行において顕著な進歩を遂げている。これらのLLMベースのエージェントは、クエリをタスクとして受け取り、それらを装備されたLCMを介して様々なサブタスクに分解し、外部エンティティ(\eg{}、ツール、AIエージェント)のアクションをガイドし、ユーザからの質問に答える。医療、金融、コード補完など労働集約的な分野で広く採用されているが、同時に、これらのエージェントの誤用も懸念されており、サービス提供者の安全ガードが組み込まれている。ビルトインガイドラインを回避するため、以前の研究では、メモリ中毒、ジェイルブレイク、即時注射を含む数多くの攻撃を提案した。これらの研究は、制限された特権とクエリの有害な意味論のために、エージェントが使用する安全フィルタの効率を維持するのに失敗することが多い。本稿では,ブラックボックスエージェントシステムの動作計画を操作する新しいハイジャック攻撃である \Name を紹介する。 \Nameは、まず、長期記憶からのプロンプト盗難を通じてアクション認識メモリを収集する。次に、エージェントの内部メモリ検索機構を活用して、誤ったコンテキストを提供する。検索器の潜伏空間と安全フィルタとの間の大きなギャップは,検出を容易に回避することができる。大規模な実験の結果,アポラッハの有効性が示された(99.67 % ASR)。また,安全フィルタの平均バイパス率92.7%を達成した。

関連論文リスト

A Practical Memory Injection Attack against LLM Agents [49.01756339657071]
MINJAは、クエリと出力観察を通してエージェントとのみ対話することで、悪意のあるレコードをメモリバンクに注入することができる。 MINJAは、任意のユーザがエージェントメモリに影響を与え、LLMエージェントの実践的なリスクを強調します。
論文参考訳（メタデータ） (2025-03-05T17:53:24Z)
UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning [17.448966928905733]
外部ツールを備えた大規模言語モデル(LLM)エージェントは、複雑なタスクを扱うためにますます強力になっている。 LLMエージェント用に設計された統一レッドチーム化フレームワークであるUDoraを,エージェント自身の推論プロセスを動的に活用し,悪意のある動作に強制する。
論文参考訳（メタデータ） (2025-02-28T21:30:28Z)
Unveiling Privacy Risks in LLM Agent Memory [40.26158509307175]
大規模言語モデル(LLM)エージェントは、様々な現実世界のアプリケーションでますます普及している。デモのためにメモリモジュールにプライベートユーザエージェントインタラクションを格納することで、意思決定を強化する。本稿では,メモリからプライベート情報を抽出するメモリ・エクストルーアクション・アタック(MEXTRA)を提案する。
論文参考訳（メタデータ） (2025-02-17T19:55:53Z)
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文参考訳（メタデータ） (2024-12-21T16:17:48Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文参考訳（メタデータ） (2024-08-06T01:20:12Z)
Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文参考訳（メタデータ） (2024-07-30T14:35:31Z)
AgentPoison: Red-teaming LLM Agents via Poisoning Memory or Knowledge Bases [73.04652687616286]
本稿では,RAG とRAG をベースとした LLM エージェントを標的とした最初のバックドア攻撃である AgentPoison を提案する。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングや微調整を必要としない。エージェントごとに、AgentPoisonは平均攻撃成功率を80%以上達成し、良質なパフォーマンスに最小限の影響を与える。
論文参考訳（メタデータ） (2024-07-17T17:59:47Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
大規模言語モデル(LLM)の安全性を高める既存の手法は、LLMエージェントに直接転送することはできない。我々は、他のLLMエージェントに対するガードレールとして、最初のLLMエージェントであるGuardAgentを提案する。 GuardAgentは、1)提供されたガードリクエストを分析してタスクプランを作成し、2)タスクプランに基づいてガードレールコードを生成し、APIを呼び出すか、または外部エンジンを使用してコードを実行する。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
BadAgent: Inserting and Activating Backdoor Attacks in LLM Agents [26.057916556444333]
提案手法は,BadAgentというバックドア攻撃に対して脆弱であることを示す。提案手法は信頼性のあるデータを微調整した後でも極めて堅牢である。
論文参考訳（メタデータ） (2024-06-05T07:14:28Z)
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文参考訳（メタデータ） (2024-02-17T06:48:45Z)
On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文参考訳（メタデータ） (2024-01-31T17:28:24Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。