Fugu-MT 論文翻訳(概要): Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks

論文の概要: Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks

arxiv url: http://arxiv.org/abs/2502.08586v1
Date: Wed, 12 Feb 2025 17:19:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:01.089604
Title: Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks
Title（参考訳）: 商業用LLMエージェントは、シンプルながら危険な攻撃に耐えられる
Authors: Ang Li, Yin Zhou, Vethavikashini Chithrra Raghuram, Tom Goldstein, Micah Goldblum,
Abstract要約: 最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
参考スコア（独自算出の注目度）: 88.84977282952602
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A high volume of recent ML security literature focuses on attacks against aligned large language models (LLMs). These attacks may extract private information or coerce the model into producing harmful outputs. In real-world deployments, LLMs are often part of a larger agentic pipeline including memory systems, retrieval, web access, and API calling. Such additional components introduce vulnerabilities that make these LLM-powered agents much easier to attack than isolated LLMs, yet relatively little work focuses on the security of LLM agents. In this paper, we analyze security and privacy vulnerabilities that are unique to LLM agents. We first provide a taxonomy of attacks categorized by threat actors, objectives, entry points, attacker observability, attack strategies, and inherent vulnerabilities of agent pipelines. We then conduct a series of illustrative attacks on popular open-source and commercial agents, demonstrating the immediate practical implications of their vulnerabilities. Notably, our attacks are trivial to implement and require no understanding of machine learning.
Abstract（参考訳）: 最近のMLセキュリティ文献は、協調した大規模言語モデル(LLM)に対する攻撃に焦点を当てている。これらの攻撃は、個人情報を抽出したり、モデルを強制して有害な出力を生成する。実世界のデプロイメントでは、LLMはメモリシステム、検索、Webアクセス、API呼び出しを含むより大きなエージェントパイプラインの一部であることが多い。このような追加のコンポーネントは、これらのLLMエージェントを孤立したLLMよりも攻撃しやすくする脆弱性を導入するが、LLMエージェントのセキュリティに焦点を当てる作業は比較的少ない。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。まず、脅威アクター、目的、エントリポイント、攻撃可観測性、攻撃戦略、エージェントパイプライン固有の脆弱性によって分類された攻撃の分類を提供する。次に、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。特に、我々の攻撃は実装が簡単で、機械学習の理解を必要としない。

関連論文リスト

A Survey of Attacks on Large Language Models [5.845689496906739]
大規模言語モデル(LLM)とLLMベースのエージェントは、現実世界の幅広いアプリケーションに広くデプロイされている。本稿では, LLM および LLM ベースのエージェントを標的とした敵攻撃の詳細を体系的に概説する。
論文参考訳（メタデータ） (2025-05-18T22:55:16Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。 LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文参考訳（メタデータ） (2025-04-13T05:31:37Z)
Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文参考訳（メタデータ） (2024-12-23T14:36:37Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
When LLMs Go Online: The Emerging Threat of Web-Enabled LLMs [26.2943792874156]
個人データを含むサイバー攻撃における大規模言語モデル(LLM)の誤用に関連するリスクについて検討する。具体的には,サイバーアタックの実施を指示されたLLMエージェントがいかに強力かを理解することを目的としている。本稿では,PII(Personally Identible Information)の収集,偽造投稿の生成,スピアフィッシングメールの作成の3つの攻撃シナリオについて検討する。
論文参考訳（メタデータ） (2024-10-18T16:16:34Z)
LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文参考訳（メタデータ） (2024-10-14T16:41:49Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
MaPPing Your Model: Assessing the Impact of Adversarial Attacks on LLM-based Programming Assistants [14.947665219536708]
本稿では,攻撃者がプログラムタスクのプロンプトに少量のテキストを付加するMalicious Programming Prompt(MaPP)攻撃を紹介する。我々の迅速な戦略は、LSMが他の方法で正しいコードを書き続けながら脆弱性を追加する可能性があることを示しています。
論文参考訳（メタデータ） (2024-07-12T22:30:35Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文参考訳（メタデータ） (2024-04-18T09:46:25Z)
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文参考訳（メタデータ） (2024-02-17T06:48:45Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文参考訳（メタデータ） (2023-11-19T20:22:05Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。