論文の概要: Prompt Attack Detection with LLM-as-a-Judge and Mixture-of-Models
- arxiv url: http://arxiv.org/abs/2603.25176v1
- Date: Thu, 26 Mar 2026 08:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.190395
- Title: Prompt Attack Detection with LLM-as-a-Judge and Mixture-of-Models
- Title(参考訳): LLM-as-a-Judgeと混合モデルによるプロンプト検出
- Authors: Hieu Xuan Le, Benjamin Goh, Quy Anh Tang,
- Abstract要約: プロンプト攻撃は、大規模言語モデルシステムに重大なセキュリティリスクをもたらす。
運用においては、ガードレールは厳格な低遅延制約の下でこれらの攻撃を軽減する必要がある。
本研究では, LLM がライブガードレールの有効低遅延判定に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt attacks, including jailbreaks and prompt injections, pose a critical security risk to Large Language Model (LLM) systems. In production, guardrails must mitigate these attacks under strict low-latency constraints, resulting in a deployment gap in which lightweight classifiers and rule-based systems struggle to generalize under distribution shift, while high-capacity LLM-based judges remain too slow or costly for live enforcement. In this work, we examine whether lightweight, general-purpose LLMs can reliably serve as security judges under real-world production constraints. Through careful prompt and output design, lightweight LLMs are guided through a structured reasoning process involving explicit intent decomposition, safety-signal verification, harm assessment, and self-reflection. We evaluate our method on a curated dataset combining benign queries from real-world chatbots with adversarial prompts generated via automated red teaming (ART), covering diverse and evolving patterns. Our results show that general-purpose LLMs, such as gemini-2.0-flash-lite-001, can serve as effective low-latency judges for live guardrails. This configuration is currently deployed in production as a centralized guardrail service for public service chatbots in Singapore. We additionally evaluate a Mixture-of-Models (MoM) setting to assess whether aggregating multiple LLM judges improves prompt-attack detection performance relative to single-model judges, with only modest gains observed.
- Abstract(参考訳): ジェイルブレイクやインジェクションのプロンプトを含むプロンプト攻撃は、Large Language Model (LLM)システムに重大なセキュリティリスクをもたらす。
運用においては、ガードレールは厳格な低遅延制約の下でこれらの攻撃を緩和し、結果として、軽量な分類器とルールベースのシステムが分散シフトの下で一般化するのに苦労するデプロイメントギャップが生じる。
本研究では,軽量で汎用的なLCMが,実運用制約下でのセキュリティ審査を確実に行うことができるかどうかを検討する。
注意深いプロンプトおよび出力設計を通じて、軽量LCMは明示的な意図の分解、安全信号の検証、害評価、自己回帰を含む構造化された推論プロセスを通して導かれる。
実世界のチャットボットからの良質なクエリと、自動レッド・チームリング(ART)によって生成された敵のプロンプトを組み合わせ、多様なパターンと進化するパターンを網羅したキュレートデータセットについて評価を行った。
以上の結果から,ジェミニ-2.0-フラッシュ-ライト-001のような汎用LLMは,ライブガードレールの低遅延判定に有効であることが示唆された。
この構成は現在、シンガポールの公共サービスチャットボット向けの集中型ガードレールサービスとして運用されている。
また,Mixture-of-Models (MoM) の設定を評価し,複数のLCM判定器を集約することで,単一モデル判定器に対して即時攻撃検出性能が向上するか否かを評価する。
関連論文リスト
- SBASH: a Framework for Designing and Evaluating RAG vs. Prompt-Tuned LLM Honeypots [0.0]
ハニーポット(Honeypots)は、価値ある脅威情報を集めたり、攻撃者を生産システムから遠ざけるために使われるデコイシステムである。
本稿では,軽量なローカルLCMを用いてデータ保護問題を管理するシステムベース注意型シェルハニーポットフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:41:52Z) - RAG Makes Guardrails Unsafe? Investigating Robustness of Guardrails under RAG-style Contexts [39.58550043591753]
外部LLMベースのガードレールモデルは、安全でない入力と出力をスクリーニングする一般的なソリューションとして登場した。
LLMをベースとしたガードレールが,文脈に埋め込まれた追加情報に対していかに堅牢かを検討した。
論文 参考訳(メタデータ) (2025-10-06T19:20:43Z) - System Prompt Extraction Attacks and Defenses in Large Language Models [2.6986500640871482]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデルの振る舞いと応答生成を導く上で重要な役割を果たす。
近年の研究では、LLMシステムプロンプトは、厳密に設計されたクエリによる攻撃の抽出に非常に敏感であることが示されている。
脅威が増大しているにもかかわらず、システムによる攻撃と防御の促進に関する体系的な研究が欠如している。
論文 参考訳(メタデータ) (2025-05-27T21:36:27Z) - Understanding and Enhancing the Transferability of Jailbreaking Attacks [12.446931518819875]
脱獄攻撃は、オープンソースの大規模言語モデル(LLM)を効果的に操作し、有害な応答を生成する。
本研究は, モデルが意図的知覚に与える影響を分析し, 脱獄攻撃の伝達可能性について検討する。
そこで本研究では,入力中の中性インテリジェントトークンを均一に分散するPerceived-Iportance Flatten (PiF)法を提案する。
論文 参考訳(メタデータ) (2025-02-05T10:29:54Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - MART: Improving LLM Safety with Multi-round Automatic Red-Teaming [72.2127916030909]
本稿では,自動対向的なプロンプト書き込みと安全な応答生成の両方を組み込んだMulti-round Automatic Red-Teaming(MART)手法を提案する。
敵のプロンプトベンチマークでは、安全アライメントが制限されたLDMの違反率は、MARTの4ラウンド後に84.7%まで減少する。
特に、非敵対的なプロンプトに対するモデルの有用性は反復を通して安定しており、LLMは命令に対する強い性能を維持していることを示している。
論文 参考訳(メタデータ) (2023-11-13T19:13:29Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。