論文の概要: Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content
- arxiv url: http://arxiv.org/abs/2605.29659v1
- Date: Thu, 28 May 2026 09:21:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.130392
- Title: Opir: Efficient Multi-Task Safety Classification for Toxicity, Jailbreaks, Hate Speech, and Harmful Content
- Title(参考訳): Opir: 毒性、脱獄、ヘイトスピーチ、有害コンテンツのための効率的なマルチタスク安全分類
- Authors: Ihor Stepanov, Aleksandr Smechov,
- Abstract要約: Opirは、GLiClassアーキテクチャ上に構築されたエンコーダベースのガードレールモデルのファミリーである。
Opirには、バイナリセーフ/アンセーフ分類、マルチラベル毒性分類、ジェイルブレイク分類、ゼロショットアンセーフプロンプトとレスポンス分類のためのマルチタスクモデルが含まれている。
- 参考スコア(独自算出の注目度): 46.13517417540154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time safety filtering for large language model (LLM) applications requires classifiers that can detect unsafe prompts, toxic language, jailbreak attempts, and unsafe responses without the cost profile of large guardrail models, and that can distinguish benign sensitive text from genuinely covert harmful content. In this paper, we introduce Opir, a family of encoder-based guardrail models built on the GLiClass architecture. Opir includes multi-task models for binary safe/unsafe classification, multi-label toxicity classification, jailbreak classification, and zero-shot unsafe prompt and response categorization. We also release edge variants with fewer than 100M parameters dedicated to binary safe/unsafe categorization. The models are trained on a three-level taxonomy containing 996 categories across 16 top-level labels, 126 mid-level labels, and 854 leaf labels. Opir's training data combines taxonomy-grounded unsafe prompts, adversarially mined hard negatives, benign safety-preserving examples, generated response examples, multilingual translations, and portions of the Aegis2 and WildGuard training subsets. We also open-sourced an evaluation harness that supports GLiClass and GLiNER2 backends as well as decoder-based models, and covers binary safety classification, multi-label categorization, toxicity, jailbreak detection, prompt safety, response safety, response refusal, and prompt subcategory views across public benchmark families. Across an expanded comparison spanning 12 safety-classification tasks and 17 category tasks against eight contemporary guardrail systems -- including both GLiNER2-based and generative guardrail models -- Opir variants are competitive on or ahead of the strongest open-weight baselines on the majority of benchmark datasets while operating with a substantially smaller deployment footprint.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションのためのリアルタイム安全フィルタリングには、安全でないプロンプト、有害な言語、脱獄の試み、安全でない応答を、大きなガードレールモデルのコストプロファイルなしで検出できる分類器が必要である。
本稿では,GLiClassアーキテクチャ上に構築されたエンコーダベースのガードレールモデルのファミリーであるOpirを紹介する。
Opirには、バイナリセーフ/アンセーフ分類、マルチラベル毒性分類、ジェイルブレイク分類、ゼロショットアンセーフプロンプトとレスポンス分類のためのマルチタスクモデルが含まれている。
また、バイナリセーフ/アンセーフな分類専用のパラメータが1億未満のエッジ版もリリースしています。
モデルは16の上位レベルラベル、126の中間レベルラベル、844のリーフラベルを含む3レベル分類で訓練されている。
Opirのトレーニングデータは、分類学に基づく安全でないプロンプト、反対に採掘されたハードネガティブ、良質な安全保持例、生成された応答例、多言語翻訳、およびAegis2およびWildGuardトレーニングサブセットの一部を組み合わせたものだ。
また、GLiClassとGLiNER2バックエンドとデコーダベースのモデルをサポートし、バイナリ安全性分類、マルチラベル分類、毒性、ジェイルブレイク検出、迅速な安全性、応答安全性、応答拒否、パブリックベンチマークファミリ間のサブカテゴリビューをカバーしています。
12の安全分類タスクと、GLiNER2ベースとジェネレーティブガードレールモデルを含む8つの現代のガードレールシステムに対する17のカテゴリタスクにまたがる拡張された比較では、オスピ変種は、ベンチマークデータセットの大部分で最強のオープンウェイトベースラインよりも、はるかに少ないデプロイメントフットプリントで運用されている。
関連論文リスト
- GLiGuard: Schema-Conditioned Classification for LLM Safeguard [5.918280835312565]
LLMコンテンツのモデレーションにGLiNER2を応用した双方向エンコーダである textbfGLiGuard を導入する。
キーとなるアイデアは、タスク定義とラベルのセマンティクスを直接、構造化トークンスキーマとして入力シーケンスにエンコードすることだ。
GLiGuardは、23-90$times$小さながら、7B--27Bデコーダベースのガードと競合するF1スコアを達成した。
論文 参考訳(メタデータ) (2026-05-08T16:44:07Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - SGuard-v1: Safety Guardrail for Large Language Models [9.229602223310485]
SGuard-v1は、大規模言語モデル(LLM)のための軽量安全ガードレールである。
それは、人間とAIの会話環境における有害なコンテンツと画面の敵対的プロンプトを検出するための2つの特殊なモデルから構成される。
論文 参考訳(メタデータ) (2025-11-16T08:15:54Z) - OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Scaling behavior of large language models in emotional safety classification across sizes and tasks [0.0]
本研究では,大言語モデル(LLM)の3次的感情安全分類と多ラベル分類という2つの重要な課題に対するスケーリング行動について検討する。
我々は、人間によって認可されたメンタルヘルスデータセットをマージして、新しいデータセットを構築する。
4つのLLaMAモデル (1B, 3B, 8B, 70B) をゼロショット, 少数ショット, 微調整設定で評価した。
論文 参考訳(メタデータ) (2025-09-02T20:53:03Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。