Fugu-MT 論文翻訳(概要): Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack

論文の概要: Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack

arxiv url: http://arxiv.org/abs/2503.15551v1
Date: Tue, 18 Mar 2025 15:16:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.082804
Title: Efficient but Vulnerable: Benchmarking and Defending LLM Batch Prompting Attack
Title（参考訳）: 効率的だが脆弱性がある - ベンチマークとLLMバッチプロンプト攻撃の回避
Authors: Murong Yue, Ziyu Yao,
Abstract要約: 悪意のあるユーザは、攻撃命令をバッチに注入することで、すべてのクエリに不要な干渉を引き起こす。この脆弱性は、フィッシングリンクのような有害なコンテンツや論理的推論の中断をもたらす可能性がある。
参考スコア（独自算出の注目度）: 7.302295561638202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Batch prompting, which combines a batch of multiple queries sharing the same context in one inference, has emerged as a promising solution to reduce inference costs. However, our study reveals a significant security vulnerability in batch prompting: malicious users can inject attack instructions into a batch, leading to unwanted interference across all queries, which can result in the inclusion of harmful content, such as phishing links, or the disruption of logical reasoning. In this paper, we construct BATCHSAFEBENCH, a comprehensive benchmark comprising 150 attack instructions of two types and 8k batch instances, to study the batch prompting vulnerability systematically. Our evaluation of both closed-source and open-weight LLMs demonstrates that all LLMs are susceptible to batch-prompting attacks. We then explore multiple defending approaches. While the prompting-based defense shows limited effectiveness for smaller LLMs, the probing-based approach achieves about 95% accuracy in detecting attacks. Additionally, we perform a mechanistic analysis to understand the attack and identify attention heads that are responsible for it.
Abstract（参考訳）: 1つの推論で同じコンテキストを共有する複数のクエリのバッチを組み合わせたバッチプロンプトが、推論コストを削減するための有望なソリューションとして登場した。悪意のあるユーザは、攻撃命令をバッチに注入することで、すべてのクエリに不要な干渉を発生させ、フィッシングリンクや論理的推論の中断といった有害なコンテンツが含まれる可能性がある。本稿では,2種類の攻撃命令と8kバッチインスタンスからなる総合ベンチマークであるBATCHSAFEBENCHを構築し,バッチプロンプトの脆弱性を系統的に調査する。クローズドソース LLM とオープンウェイト LLM の評価は,全ての LLM がバッチ・プロンプティング・アタックの影響を受けやすいことを示す。次に、複数の防御アプローチを検討します。プロンプトベースの防御は、より小さなLSMに対して限られた有効性を示すが、探索ベースのアプローチは攻撃を検出するのに約95%の精度を達成している。さらに,攻撃を理解するための機械的解析を行い,その原因となる注意点を同定する。

関連論文リスト

Multi-Stage Prompt Inference Attacks on Enterprise LLM Systems [18.039444159491733]
エンタープライズ環境にデプロイされる大規模言語モデル(LLM)は、新たなセキュリティ課題に直面している。敵同士が連携して、徐々に機密データを抽出するように仕向ける。企業LLMコンテキストにおける多段階的プロンプト推論攻撃の包括的研究について述べる。
論文参考訳（メタデータ） (2025-07-21T13:38:12Z)
Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。 LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2025-05-31T13:11:14Z)
Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文参考訳（メタデータ） (2025-05-20T13:50:43Z)
Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文参考訳（メタデータ） (2025-04-29T07:34:22Z)
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文参考訳（メタデータ） (2025-04-29T07:13:53Z)
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文参考訳（メタデータ） (2024-10-28T00:36:21Z)
Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文参考訳（メタデータ） (2024-07-19T19:47:26Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
Defending Against Indirect Prompt Injection Attacks With Spotlighting [11.127479817618692]
一般的なアプリケーションでは、複数の入力は1つのテキストストリームにまとめることで処理できる。間接的なプロンプトインジェクション攻撃は、ユーザコマンドと共に処理されている信頼できないデータに、敵命令を埋め込むことによって、この脆弱性を利用する。我々は,複数の入力源を識別するLLMの能力を向上させるために,迅速なエンジニアリング技術群であるスポットライティングを紹介した。
論文参考訳（メタデータ） (2024-03-20T15:26:23Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。この能力は、迅速なインジェクション攻撃のリスクをもたらす。このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文参考訳（メタデータ） (2023-08-17T06:21:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。