Fugu-MT 論文翻訳(概要): LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

論文の概要: LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge

arxiv url: http://arxiv.org/abs/2506.09956v1
Date: Wed, 11 Jun 2025 17:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:03.1695
Title: LLMail-Inject: A Dataset from a Realistic Adaptive Prompt Injection Challenge
Title（参考訳）: LLMail-Inject: 現実的な適応型プロンプトインジェクションチャレンジからのデータセット
Authors: Sahar Abdelnabi, Aideen Fay, Ahmed Salem, Egor Zverev, Kai-Chieh Liao, Chi-Huang Liu, Chun-Chih Kuo, Jannis Weigend, Danyael Manlangit, Alex Apostolov, Haris Umair, João Donato, Masayuki Kawakita, Athar Mahboob, Tran Huu Bach, Tsun-Han Chiang, Myeongjin Cho, Hajin Choi, Byeonghyeon Kim, Hyeonjin Lee, Benjamin Pannell, Conor McCauley, Mark Russinovich, Andrew Paverd, Giovanni Cherubin,
Abstract要約: LLMail-Injectは,参加者が電子メールに悪意ある指示を注入しようとする現実的なシナリオをシミュレートする公開課題である。我々は、課題コード、提案の全データセット、そして、このデータがどのように命令データ分離問題に対する新たな洞察を提供するかを示す分析結果をリリースする。
参考スコア（独自算出の注目度）: 12.83443290631527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Indirect Prompt Injection attacks exploit the inherent limitation of Large Language Models (LLMs) to distinguish between instructions and data in their inputs. Despite numerous defense proposals, the systematic evaluation against adaptive adversaries remains limited, even when successful attacks can have wide security and privacy implications, and many real-world LLM-based applications remain vulnerable. We present the results of LLMail-Inject, a public challenge simulating a realistic scenario in which participants adaptively attempted to inject malicious instructions into emails in order to trigger unauthorized tool calls in an LLM-based email assistant. The challenge spanned multiple defense strategies, LLM architectures, and retrieval configurations, resulting in a dataset of 208,095 unique attack submissions from 839 participants. We release the challenge code, the full dataset of submissions, and our analysis demonstrating how this data can provide new insights into the instruction-data separation problem. We hope this will serve as a foundation for future research towards practical structural solutions to prompt injection.
Abstract（参考訳）: 間接プロンプトインジェクションは、入力中の命令とデータを区別するために、Large Language Models(LLM)固有の制限を利用する。多くの防衛提案にもかかわらず、アダプティブな敵に対する体系的な評価は、成功した攻撃が広範なセキュリティとプライバシに影響を及ぼす可能性があり、現実のLLMベースのアプリケーションの多くは脆弱なままである。 LLMail-Injectは,LLMベースの電子メールアシスタントにおける不正なツールコールを誘導するために,参加者が悪意ある命令を電子メールに適応的に注入しようとする現実的なシナリオをシミュレートする。この課題は、複数の防衛戦略、LLMアーキテクチャ、検索設定にまたがっており、結果として839人の参加者から208,095件のユニークな攻撃のデータセットが得られた。我々は、課題コード、提案の全データセット、そして、このデータがどのように命令データ分離問題に対する新たな洞察を提供するかを示す分析結果をリリースする。このことが, インジェクションの実用化に向けた今後の研究の基盤となることを願っている。

関連論文リスト

Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文参考訳（メタデータ） (2025-09-30T08:20:50Z)
Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。敵同士が連携して、徐々に機密データを抽出するように仕向ける。企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文参考訳（メタデータ） (2025-07-21T13:38:12Z)
TopicAttack: An Indirect Prompt Injection Attack via Topic Transition [71.81906608221038]
大規模言語モデル(LLM)は間接的なインジェクション攻撃に対して脆弱である。提案するTopicAttackは,LLMに生成した遷移プロンプトを生成し,徐々にトピックをインジェクション命令にシフトさせる。提案手法は, インジェクトからオリジナルへのアテンション比が高く, 成功確率が高く, ベースライン法よりもはるかに高い比を達成できることがわかった。
論文参考訳（メタデータ） (2025-07-18T06:23:31Z)
Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。 LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
FATH: Authentication-based Test-time Defense against Indirect Prompt Injection Attacks [45.65210717380502]
大規模言語モデル(LLM)は、現実世界のアプリケーションのための追加ツールとテキスト情報を備えたバックボーンとして広くデプロイされている。プロンプトインジェクション攻撃は特に脅威であり、外部のテキスト情報に悪意のあるインストラクションを注入することで、LLMを利用して攻撃者が望む答えを生成することができる。本稿では,AuThentication with Hash-based tags (FATH)という新しいテストタイム防衛戦略を紹介する。
論文参考訳（メタデータ） (2024-10-28T20:02:47Z)
SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
アドリアルプロンプトは外部データソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を約0%に低下させる。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文参考訳（メタデータ） (2024-01-15T11:44:18Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文参考訳（メタデータ） (2023-11-02T06:13:36Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。