論文の概要: Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
- arxiv url: http://arxiv.org/abs/2602.08062v1
- Date: Sun, 08 Feb 2026 17:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.962067
- Title: Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
- Title(参考訳): ブートストラップアグリゲーションによる致死性LDMプロンプトの高効率かつ適応性検出
- Authors: Shayan Ali Hassan, Tao Ni, Zafar Ayyub Qazi, Marco Canini,
- Abstract要約: Black-boxモデレーションAPIは、限られた透明性を提供し、進化する脅威に不適応する。
大きなLLM判事を用いたホワイトボックスのアプローチは、計算コストを禁止し、新しい攻撃に対して高価な再訓練を必要とする。
本稿では,モジュール型で軽量で段階的に更新可能なフレームワークであるBAGELについて紹介する。
- 参考スコア(独自算出の注目度): 4.467773944156384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and generation. However, these systems remain susceptible to malicious prompts that induce unsafe or policy-violating behavior through harmful requests, jailbreak techniques, and prompt injection attacks. Existing defenses face fundamental limitations: black-box moderation APIs offer limited transparency and adapt poorly to evolving threats, while white-box approaches using large LLM judges impose prohibitive computational costs and require expensive retraining for new attacks. Current systems force designers to choose between performance, efficiency, and adaptability. To address these challenges, we present BAGEL (Bootstrap AGgregated Ensemble Layer), a modular, lightweight, and incrementally updatable framework for malicious prompt detection. BAGEL employs a bootstrap aggregation and mixture of expert inspired ensemble of fine-tuned models, each specialized on a different attack dataset. At inference, BAGEL uses a random forest router to identify the most suitable ensemble member, then applies stochastic selection to sample additional members for prediction aggregation. When new attacks emerge, BAGEL updates incrementally by fine-tuning a small prompt-safety classifier (86M parameters) and adding the resulting model to the ensemble. BAGEL achieves an F1 score of 0.92 by selecting just 5 ensemble members (430M parameters), outperforming OpenAI Moderation API and ShieldGemma which require billions of parameters. Performance remains robust after nine incremental updates, and BAGEL provides interpretability through its router's structural features. Our results show ensembles of small finetuned classifiers can match or exceed billion-parameter guardrails while offering the adaptability and efficiency required for production systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語理解、推論、生成において顕著な能力を示した。
しかし、これらのシステムは、有害な要求、ジェイルブレイク技術、インジェクション攻撃を通じて、安全でないまたはポリシーに違反する行動を誘発する悪意のあるプロンプトに影響を受けやすいままである。
ブラックボックスのモデレーションAPIは、透明性が制限され、進化する脅威に適応しにくい一方で、大規模なLCM判事を使ったホワイトボックスのアプローチでは、禁止的な計算コストを課し、新しい攻撃に対して高価な再訓練を必要とする。
現在のシステムでは、デザイナはパフォーマンス、効率、適応性を選択せざるを得ない。
これらの課題に対処するため、悪意のあるプロンプト検出のためのモジュール的で軽量で漸進的に更新可能なフレームワークであるBAGEL(Bootstrap AGgregated Ensemble Layer)を紹介します。
BAGELはブートストラップアグリゲーションと、専門家にインスパイアされた細調整されたモデルのアンサンブルを組み合わせており、それぞれが異なる攻撃データセットに特化している。
推測において、BAGELはランダムなフォレストルータを使用して最も適したアンサンブルメンバーを特定し、次に確率的選択を適用して予測アグリゲーションのための追加メンバーをサンプリングする。
新しい攻撃が発生すると、BAGELは小さなプロンプトセーフティ分類器(86Mパラメータ)を微調整し、その結果のモデルをアンサンブルに追加することで、段階的に更新する。
BAGELは、わずか5つのアンサンブルメンバ(430Mパラメータ)を選択し、数十億のパラメータを必要とするOpenAIモデレーションAPIとShieldGemmaを上回り、F1スコアの0.92を達成する。
9回のインクリメンタルアップデートの後、パフォーマンスは引き続き堅牢であり、BAGELはルータの構造的特徴を通じて解釈性を提供する。
この結果から,小型の微調整器のアンサンブルは10億パラメータガードレールに適合または超過し,生産システムに必要とされる適応性と効率性を実現することができることがわかった。
関連論文リスト
- PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - VERA: Variational Inference Framework for Jailbreaking Large Language Models [29.57412296290215]
最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
論文 参考訳(メタデータ) (2025-06-27T22:22:00Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Achieving Byzantine-Resilient Federated Learning via Layer-Adaptive Sparsified Model Aggregation [7.200910949076064]
フェデレートラーニング(FL)は、複数のクライアントがローカルデータを共有せずに、協調的にモデルをトレーニングすることを可能にする。
しかし、FLシステムは、悪質なモデルの更新をアップロードすることでモデルのトレーニングプロセスを妨害することを目的とした、よく設計されたByzantine攻撃に対して脆弱である。
本稿では,階層的適応アグリゲーションと事前アグリゲーション・スパリフィケーションを組み合わせたLayer-Adaptive Sparsified Model Aggregation(LASA)手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T19:28:35Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。