論文の概要: Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment
- arxiv url: http://arxiv.org/abs/2506.00166v1
- Date: Fri, 30 May 2025 19:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.474279
- Title: Disentangled Safety Adapters Enable Efficient Guardrails and Flexible Inference-Time Alignment
- Title(参考訳): 効率的なガードレールとフレキシブル推論時間アライメントを実現する遠絡型安全アダプタ
- Authors: Kundan Krishna, Joseph Y Cheng, Charles Maalouf, Leon A Gatys,
- Abstract要約: ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
- 参考スコア(独自算出の注目度): 4.181987990532721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing paradigms for ensuring AI safety, such as guardrail models and alignment training, often compromise either inference efficiency or development flexibility. We introduce Disentangled Safety Adapters (DSA), a novel framework addressing these challenges by decoupling safety-specific computations from a task-optimized base model. DSA utilizes lightweight adapters that leverage the base model's internal representations, enabling diverse and flexible safety functionalities with minimal impact on inference cost. Empirically, DSA-based safety guardrails substantially outperform comparably sized standalone models, notably improving hallucination detection (0.88 vs. 0.61 AUC on Summedits) and also excelling at classifying hate speech (0.98 vs. 0.92 on ToxiGen) and unsafe model inputs and responses (0.93 vs. 0.90 on AEGIS2.0 & BeaverTails). Furthermore, DSA-based safety alignment allows dynamic, inference-time adjustment of alignment strength and a fine-grained trade-off between instruction following performance and model safety. Importantly, combining the DSA safety guardrail with DSA safety alignment facilitates context-dependent alignment strength, boosting safety on StrongReject by 93% while maintaining 98% performance on MTBench -- a total reduction in alignment tax of 8 percentage points compared to standard safety alignment fine-tuning. Overall, DSA presents a promising path towards more modular, efficient, and adaptable AI safety and alignment.
- Abstract(参考訳): ガードレールモデルやアライメントトレーニングなど、AIの安全性を保証するための既存のパラダイムは、推論効率または開発柔軟性を損なうことが多い。
タスク最適化ベースモデルから安全性特異的な計算を分離することで、これらの課題に対処する新しいフレームワークであるDisentangled Safety Adapters (DSA) を導入する。
DSAは、ベースモデルの内部表現を活用する軽量アダプタを使用し、推論コストに最小限の影響を伴って、多種多様なフレキシブルな安全性機能を実現する。
実証的には、DSAベースの安全ガードレールは、幻覚検出(サメディッツの0.88対0.61AUC)の改善、ヘイトスピーチ(ToxiGenの0.98対0.92)と安全でないモデルの入力と応答(AEGIS2.0とBeaverTailsの0.93対0.90)の分類に優れるなど、比較可能な大きさのスタンドアロンモデルよりも大幅に優れていた。
さらに、DSAベースの安全アライメントは、アライメント強度の動的、推論時間による動的調整と、実行後の命令とモデル安全性の間の微粒なトレードオフを可能にする。
重要な点として、DSAの安全ガードレールとDSAの安全アライメントを組み合わせることで、コンテクスト依存のアライメント強度が向上し、StrongRejectの安全性が93%向上し、MTBenchのパフォーマンスは98%向上した。
全体として、DSAはよりモジュール化され、効率的で、適応可能なAI安全性とアライメントへの有望な道を示す。
関連論文リスト
- Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Alignment with Preference Optimization Is All You Need for LLM Safety [5.063347837245749]
安全性データセットを用いたFalcon 11Bモデルに様々なアライメント手法を適用した。
我々は,LlamaGuard 3 8Bによる世界安全スコアの大幅な向上を実現し,最先端のモデルと競合する。
しかし、この安全性の向上は、特に数学において、一般的な能力を低下させるコストが伴う。
論文 参考訳(メタデータ) (2024-09-12T06:10:15Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。