論文の概要: The bitter lesson of misuse detection
- arxiv url: http://arxiv.org/abs/2507.06282v1
- Date: Tue, 08 Jul 2025 15:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.345672
- Title: The bitter lesson of misuse detection
- Title(参考訳): 誤用検出の苦い教訓
- Authors: Hadrien Mariaccia, Charbel-Raphaël Segerie, Diego Dorn,
- Abstract要約: 本稿では,LLMスーパービジョンシステム評価のためのベンチマークであるBELLSを紹介する。
ベルの枠組みは、重度(良性、境界線、有害)と敵対的洗練(直接対ジェイルブレイク)の2次元である。
本評価は, 専門監督システムの大幅な限界を明らかにするものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prior work on jailbreak detection has established the importance of adversarial robustness for LLMs but has largely focused on the model ability to resist adversarial inputs and to output safe content, rather than the effectiveness of external supervision systems. The only public and independent benchmark of these guardrails to date evaluates a narrow set of supervisors on limited scenarios. Consequently, no comprehensive public benchmark yet verifies how well supervision systems from the market perform under realistic, diverse attacks. To address this, we introduce BELLS, a Benchmark for the Evaluation of LLM Supervision Systems. The framework is two dimensional: harm severity (benign, borderline, harmful) and adversarial sophistication (direct vs. jailbreak) and provides a rich dataset covering 3 jailbreak families and 11 harm categories. Our evaluations reveal drastic limitations of specialized supervision systems. While they recognize some known jailbreak patterns, their semantic understanding and generalization capabilities are very limited, sometimes with detection rates close to zero when asking a harmful question directly or with a new jailbreak technique such as base64 encoding. Simply asking generalist LLMs if the user question is "harmful or not" largely outperforms these supervisors from the market according to our BELLS score. But frontier LLMs still suffer from metacognitive incoherence, often responding to queries they correctly identify as harmful (up to 30 percent for Claude 3.7 and greater than 50 percent for Mistral Large). These results suggest that simple scaffolding could significantly improve misuse detection robustness, but more research is needed to assess the tradeoffs of such techniques. Our results support the "bitter lesson" of misuse detection: general capabilities of LLMs are necessary to detect a diverse array of misuses and jailbreaks.
- Abstract(参考訳): ジェイルブレイク検出の以前の研究は、LDMに対する敵の堅牢性の重要性を確立してきたが、主に、外部監視システムの有効性よりも、敵の入力に抵抗し、安全なコンテンツを出力するモデル能力に焦点を合わせてきた。
これらのガードレールの唯一の公的および独立したベンチマークは、限られたシナリオにおける監督者の狭いセットを評価している。
その結果、市場からの監視システムが現実的で多様な攻撃の下でどのように機能するかを、包括的な公開ベンチマークはまだ検証していない。
そこで本研究では,LLMスーパービジョンシステム評価ベンチマークであるBELLSを紹介する。
このフレームワークは2次元的であり、有害度(良性、境界線、有害性)と敵対的洗練度(直接対ジェイルブレイク)であり、3つのジェイルブレイクファミリーと11の有害カテゴリーをカバーする豊富なデータセットを提供する。
本評価は, 専門監督システムの大幅な限界を明らかにするものである。
彼らはいくつかの既知のジェイルブレイクパターンを認識しているが、それらのセマンティックな理解と一般化能力は非常に限られている。
ユーザ質問が"有害かどうか"をジェネラリストに尋ねるだけで、BELLSスコアによると、これらのスーパーバイザーは市場から大きく上回っている。
しかし、フロンティアのLSMは依然としてメタ認知的不整合に悩まされており、しばしば彼らが正しく有害であると認識するクエリに応答する(クロード3.7では最大30%、ミストラル大では50%以上)。
これらの結果から, 単純な足場設計は誤用検出の堅牢性を著しく向上させるが, それらの技術とのトレードオフを評価するためには, さらなる研究が必要であることが示唆された。
LLMの一般的な能力は、さまざまな誤用や脱獄を検知するために必要である。
関連論文リスト
- LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement [48.50995874445193]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的な機能を示しているが、細心の注意を払って構築されたジェイルブレイク攻撃には弱いままである。
SAGE(Self-Aware Guard Enhancement)は,LSMの強い安全識別性能と比較的弱い安全生成能力とを整合させる訓練不要防衛戦略である。
論文 参考訳(メタデータ) (2025-05-17T15:54:52Z) - JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model [25.204224437843365]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクに優れるが、有害なコンテンツを生成する大きなリスクを生じさせる。
ジェイルブレイク攻撃は、モデル内の安全メカニズムを回避し、不適切なコンテンツや安全でないコンテンツを生成する意図的な操作を指す。
JAILDAMと呼ばれるテスト時間適応フレームワークを導入し、これらの問題に対処する。
論文 参考訳(メタデータ) (2025-04-03T05:00:28Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs [13.317364896194903]
大規模言語モデル(LLM)は、ゼロショット方式で複雑なタスクを実行する上で重要な機能を示している。
LLMはジェイルブレイク攻撃の影響を受けやすく、有害な出力を生成するために操作することができる。
論文 参考訳(メタデータ) (2024-06-13T17:01:40Z) - JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs [26.981225219312627]
様々なジェイルブレイク攻撃の大規模評価を行う。
我々は17の代表的なジェイルブレイク攻撃を収集し、それらの特徴を要約し、新しいジェイルブレイク攻撃分類を確立した。
論文 参考訳(メタデータ) (2024-02-08T13:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。