Fugu-MT 論文翻訳(概要): Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems

論文の概要: Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems

arxiv url: http://arxiv.org/abs/2410.07283v1
Date: Wed, 9 Oct 2024 11:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 21:16:57.074909
Title: Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems
Title（参考訳）: プロンプト感染症 : マルチエージェントシステムにおけるLPM-LLMプロンプト注入
Authors: Donghyun Lee, Mo Tiwari,
Abstract要約: 本稿では、相互接続されたエージェント間で、悪意のある自己複製を促す新しい攻撃であるPrompt infectionを紹介する。この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。
参考スコア（独自算出の注目度）: 6.480532634073257
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: As Large Language Models (LLMs) grow increasingly powerful, multi-agent systems are becoming more prevalent in modern AI applications. Most safety research, however, has focused on vulnerabilities in single-agent LLMs. These include prompt injection attacks, where malicious prompts embedded in external content trick the LLM into executing unintended or harmful actions, compromising the victim's application. In this paper, we reveal a more dangerous vector: LLM-to-LLM prompt injection within multi-agent systems. We introduce Prompt Infection, a novel attack where malicious prompts self-replicate across interconnected agents, behaving much like a computer virus. This attack poses severe threats, including data theft, scams, misinformation, and system-wide disruption, all while propagating silently through the system. Our extensive experiments demonstrate that multi-agent systems are highly susceptible, even when agents do not publicly share all communications. To address this, we propose LLM Tagging, a defense mechanism that, when combined with existing safeguards, significantly mitigates infection spread. This work underscores the urgent need for advanced security measures as multi-agent LLM systems become more widely adopted.
Abstract（参考訳）: 大規模言語モデル(LLM)がますます強力になるにつれて、現代のAIアプリケーションでは、マルチエージェントシステムが普及しつつある。しかし、ほとんどの安全研究は単一エージェントLSMの脆弱性に焦点を当てている。これには、外部コンテンツに埋め込まれた悪意のあるプロンプトがLLMを騙して意図しないまたは有害なアクションを実行させ、被害者のアプリケーションに妥協させるプロンプトインジェクション攻撃が含まれる。本稿では,マルチエージェントシステム内でのLLM-to-LLMプロンプトインジェクションという,より危険なベクトルを明らかにする。 Prompt infectionは、コンピュータウイルスのように振る舞う、相互に繋がったエージェント間で、悪意のある自己複製を促す新たな攻撃である。この攻撃は、データ盗難、詐欺、誤報、システム全体の破壊など、深刻な脅威を引き起こす。エージェントがすべての通信を公に共有していない場合でも,マルチエージェントシステムは非常に感受性が高いことを示す。そこで本研究では,既存の安全対策と組み合わせることで感染拡大を著しく軽減する防衛機構であるLSM Taggingを提案する。この研究は、マルチエージェントLLMシステムがより広く採用されるにつれて、高度なセキュリティ対策の緊急の必要性を浮き彫りにしている。

関連論文リスト

The Dark Side of LLMs: Agent-based Attacks for Complete Computer Takeover [0.18472148461613155]
大規模言語モデル(LLM)エージェントとマルチエージェントシステムは、前例のないセキュリティ脆弱性を導入している。本稿では,自律エージェント内の推論エンジンとして使用されるLDMの安全性を総合的に評価する。我々は、このような買収を組織するために、異なる攻撃面と信頼境界をどのように活用できるかに焦点を当てる。
論文参考訳（メタデータ） (2025-07-09T13:54:58Z)
System Prompt Poisoning: Persistent Attacks on Large Language Models Beyond User Injection [13.175123810033119]
大きな言語モデル(LLM)は、その印象的な生成能力のために、様々なアプリケーションで広く採用されている。既存の研究は主にユーザープロンプトによる脅威に焦点を当てているが、システムプロンプトのセキュリティはほとんど見過ごされている。 LLMに対する新たな攻撃ベクトルであるシステムプロンプト中毒を導入し、従来のユーザプロンプトインジェクションとは異なり、毒素システムプロンプトはその後のすべてのユーザインタラクションやモデル応答に永続的に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-10T02:31:26Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。 CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文参考訳（メタデータ） (2025-03-24T15:54:10Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Security Matrix for Multimodal Agents on Mobile Devices: A Systematic and Proof of Concept Study [16.559272781032632]
マルチモーダル大規模言語モデルの推論能力の急速な進歩は、モバイルデバイス上での自律エージェントシステムの開発をきっかけにしている。ヒトと機械の相互作用効率が向上したにもかかわらず、MLLMベースの移動エージェントシステムのセキュリティリスクは体系的に研究されていない。本稿では,MLLMシステムの設計におけるセキュリティ意識の必要性を強調し,今後の攻撃・防御手法の研究の道を開く。
論文参考訳（メタデータ） (2024-07-12T14:30:05Z)
Flooding Spread of Manipulated Knowledge in LLM-Based Multi-Agent Communities [28.244283407749265]
マルチエージェントシステムにおける大規模言語モデル(LLM)のセキュリティへの影響について検討する。本稿では,説得力注入と操作的知識注入を含む2段階攻撃手法を提案する。本手法は, LLMをベースとしたエージェントを誘導し, 有害な知識の拡散に有効であることを示す。
論文参考訳（メタデータ） (2024-07-10T16:08:46Z)
Teams of LLM Agents can Exploit Zero-Day Vulnerabilities [3.2855317710497625]
LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示します。我々は,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。我々は15の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前の作業よりも4.5$times$で改善できることを示します。
論文参考訳（メタデータ） (2024-06-02T16:25:26Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative [55.08395463562242]
MLLM(Multimodal Large Language Models)は、AGI(Artificial General Intelligence)の新たな境界を常に定義している。本稿では,MLLM社会において,悪意のあるコンテンツの間接的伝播という新たな脆弱性について検討する。
論文参考訳（メタデータ） (2024-02-20T23:08:21Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。