論文の概要: Trust The Typical
- arxiv url: http://arxiv.org/abs/2602.04581v1
- Date: Wed, 04 Feb 2026 14:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.561875
- Title: Trust The Typical
- Title(参考訳): 典型的信頼
- Authors: Debargha Ganguly, Sreehari Sankar, Biyao Zhang, Vikash Singh, Kanan Gupta, Harshini Kavuru, Alan Luo, Weicong Chen, Warren Morningstar, Raghu Machiraju, Vipin Chaudhary,
- Abstract要約: 本稿では,安全をアウト・オブ・ディストリビューション(OOD)検出問題として扱うことにより,この原則を運用するフレームワークであるTrust The typical(T3)を紹介する。
T3は意味空間における許容可能なプロンプトの分布を学習し、潜在的な脅威として有意な偏差を宣言する。
安全な英語のテキスト転送のみを訓練した単一のモデルは、訓練をすることなく、多様なドメインと14以上の言語に効果的に移行した。
- 参考スコア(独自算出の注目度): 8.32740388004069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches to LLM safety fundamentally rely on a brittle cat-and-mouse game of identifying and blocking known threats via guardrails. We argue for a fresh approach: robust safety comes not from enumerating what is harmful, but from deeply understanding what is safe. We introduce Trust The Typical (T3), a framework that operationalizes this principle by treating safety as an out-of-distribution (OOD) detection problem. T3 learns the distribution of acceptable prompts in a semantic space and flags any significant deviation as a potential threat. Unlike prior methods, it requires no training on harmful examples, yet achieves state-of-the-art performance across 18 benchmarks spanning toxicity, hate speech, jailbreaking, multilingual harms, and over-refusal, reducing false positive rates by up to 40x relative to specialized safety models. A single model trained only on safe English text transfers effectively to diverse domains and over 14 languages without retraining. Finally, we demonstrate production readiness by integrating a GPU-optimized version into vLLM, enabling continuous guardrailing during token generation with less than 6% overhead even under dense evaluation intervals on large-scale workloads.
- Abstract(参考訳): LLMの安全性に対する現在のアプローチは、ガードレールを介して既知の脅威を特定し、ブロックする脆弱なキャット・アンド・ムースゲームに基本的に依存している。
堅牢な安全とは、有害なものを列挙することではなく、何が安全であるかを深く理解することである。
本稿では,安全をアウト・オブ・ディストリビューション(OOD)検出問題として扱うことにより,この原則を運用するフレームワークであるTrust The typical(T3)を紹介する。
T3は意味空間における許容可能なプロンプトの分布を学習し、潜在的な脅威として有意な偏差を宣言する。
従来の手法とは異なり、有害な例のトレーニングは必要とせず、有害性、ヘイトスピーチ、ジェイルブレイク、多言語的害、過剰な拒絶を含む18のベンチマークで最先端のパフォーマンスを達成し、特殊な安全モデルと比較して偽陽性率を最大40倍まで下げる。
安全な英語のテキスト転送のみを訓練した単一のモデルは、訓練をすることなく、多様なドメインと14以上の言語に効果的に移行した。
最後に、GPU最適化バージョンをvLLMに統合し、大規模ワークロードでの厳密な評価間隔下であっても、6%未満のオーバーヘッドでトークン生成時の継続的なガードレールを可能にすることにより、プロダクションの即時性を示す。
関連論文リスト
- Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety [3.8433556466595937]
大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。
本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。
プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
論文 参考訳(メタデータ) (2025-12-08T06:48:17Z) - Unified Defense for Large Language Models against Jailbreak and Fine-Tuning Attacks in Education [32.70143887942455]
大規模言語モデル(LLM)は、ますます教育アプリケーションに統合されている。
LLMは、ジェイルブレイクや微調整攻撃に弱いため、安全アライメントを妥協し、有害な出力につながる可能性がある。
脱獄と微調整の両方を同時に緩和する教育用3段階シールドフレームワーク(TSSF)を提案する。
論文 参考訳(メタデータ) (2025-11-18T12:27:51Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。