論文の概要: An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.18775v1
- Date: Mon, 20 Apr 2026 19:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.453288
- Title: An Empirical Study of Multi-Generation Sampling for Jailbreak Detection in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるジェイルブレイク検出のためのマルチジェネレーションサンプリングの実証的研究
- Authors: Hanrui Luo, Shreyank N Gowda,
- Abstract要約: 大規模言語モデルにおける出力ベースジェイルブレイク検出の実証的研究について述べる。
我々は,異なるサンプリング予算にまたがる語彙TF-IDF検出器と世代不整合型検出器の両方を評価した。
- 参考スコア(独自算出の注目度): 11.542407696902115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting jailbreak behaviour in large language models remains challenging, particularly when strongly aligned models produce harmful outputs only rarely. In this work, we present an empirical study of output based jailbreak detection under realistic conditions using the JailbreakBench Behaviors dataset and multiple generator models with varying alignment strengths. We evaluate both a lexical TF-IDF detector and a generation inconsistency based detector across different sampling budgets. Our results show that single output evaluation systematically underestimates jailbreak vulnerability, as increasing the number of sampled generations reveals additional harmful behaviour. The most significant improvements occur when moving from a single generation to moderate sampling, while larger sampling budgets yield diminishing returns. Cross generator experiments demonstrate that detection signals partially generalise across models, with stronger transfer observed within related model families. A category level analysis further reveals that lexical detectors capture a mixture of behavioural signals and topic specific cues, rather than purely harmful behaviour. Overall, our findings suggest that moderate multi sample auditing provides a more reliable and practical approach for estimating model vulnerability and improving jailbreak detection in large language models. Code will be released.
- Abstract(参考訳): 大規模言語モデルにおけるジェイルブレイクの振る舞いの検出は、特に強力な整列モデルが有害なアウトプットを稀に生成する場合は、依然として困難である。
本研究では,JailbreakBench Behaviorsデータセットとアライメント強度の異なる複数のジェネレータモデルを用いて,現実的な条件下での出力ベースジェイルブレイク検出の実証的研究を行う。
我々は,異なるサンプリング予算にまたがる語彙TF-IDF検出器と世代不整合型検出器の両方を評価した。
以上の結果から,単一出力評価がジェイルブレイクの脆弱性を系統的に過小評価していることが示唆された。
最も顕著な改善は、単一の世代から適度なサンプリングに移行するときに起こり、一方、より大きなサンプリング予算はリターンを減少させる。
クロスジェネレータ実験は、検出信号がモデル全体にわたって部分的に一般化され、関連するモデルファミリー内でより強い転送が観測されることを示した。
カテゴリーレベルの分析により、レキシカル検出器は純粋に有害な行動ではなく、行動信号とトピック固有の手がかりの混合を捉えていることが明らかになった。
以上の結果から,中程度のマルチサンプル監査は,モデル脆弱性を推定し,大規模言語モデルにおけるジェイルブレイク検出を改善する上で,より信頼性が高く実践的なアプローチを提供する可能性が示唆された。
コードはリリースされる。
関連論文リスト
- Feature-Aware Test Generation for Deep Learning Models [0.5368630420272898]
本研究では,視覚に基づくディープラーニング(DL)モデルのための機能認識型テスト生成フレームワークであるTectを紹介する。
潜在空間内で非絡み合ったセマンティック属性を摂動することで入力を生成する。
行動シフトにつながる特徴を特定し、セマンティック属性に視覚言語モデルを使用する。
論文 参考訳(メタデータ) (2026-01-20T15:41:06Z) - Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。
凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。
トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文 参考訳(メタデータ) (2025-11-27T14:01:50Z) - Black-Box Bug-Amplification for Multithreaded Software [5.267860909499323]
バグ、特に並列システムのバグは、稀な条件下でのみ現れるため、しばしば再生が困難である。
本稿では,このような突発的なバグの発生を体系的に増幅する手法を提案する。
このアプローチを,多様なカテゴリにまたがる17の代表的なバグのデータセットで評価する。
論文 参考訳(メタデータ) (2025-07-28T20:20:04Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z) - Detection Avoidance Techniques for Large Language Models [1.0624606551524207]
DetectGPTなどの分類システムの開発が重要になっている。
生成モデルの温度証明による浅層学習検出器の開発は信頼性が低い。
強化学習による生成モデルの微調整によりBERTに基づく検出を回避した。
言い換えると、ディテクターGPTのようなゼロショット検出器の90%の回避につながった。
論文 参考訳(メタデータ) (2025-03-10T17:56:25Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Further Analysis of Outlier Detection with Deep Generative Models [30.37180598197441]
深部生成モデルは、しばしば外れ値に高い確率を割り当てる。
モデルの典型的な集合と高密度領域が結合しないという観察から、この現象を説明できる。
また,低レベルのテクスチャと高レベルのセマンティクスの相違による影響を解消するための追加実験も行います。
論文 参考訳(メタデータ) (2020-10-25T08:20:38Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。