論文の概要: From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training
- arxiv url: http://arxiv.org/abs/2508.09224v1
- Date: Tue, 12 Aug 2025 00:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.634666
- Title: From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training
- Title(参考訳): ハード・リフレクションからセーフ・コンプリートへ:アウトプット・センター・セーフティ・トレーニングに向けて
- Authors: Yuan Yuan, Tina Sriskandarajah, Anna-Luisa Brakman, Alec Helyar, Alex Beutel, Andrea Vallone, Saachi Jain,
- Abstract要約: 本稿では,ユーザ意図のバイナリ分類ではなく,アシスタントのアウトプットの安全性を重視した安全訓練アプローチを提案する。
セーフコンプリートトレーニングは安全性を向上し(特にデュアルユースプロンプト)、残留する安全障害の重症度を低減し、モデルの有用性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 14.489448208361175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models used in ChatGPT have traditionally been trained to learn a refusal boundary: depending on the user's intent, the model is taught to either fully comply or outright refuse. While this is a strong mitigation for explicitly malicious prompts, focusing safety training on refusals can lead to brittleness for prompts with obscured user intent. Binary refusal boundaries are especially ill-suited for dual-use cases (such as biology or cybersecurity), where a user request can be answered safely at a high level, but in some cases can lead to malicious uplift if sufficiently detailed or actionable. As an alternative, we propose safe-completions: a safety-training approach that centers on the safety of the assistant's output, rather than a binary classification of the user's intent. Safe-completions seek to maximize helpfulness within the safety policy's constraints. We incorporated this approach into GPT-5 and find that across both production comparisons and internally controlled experiments, safe-completion training improves safety (especially on dual-use prompts), reduces the severity of residual safety failures, and substantially increases model helpfulness.
- Abstract(参考訳): ChatGPTで使用される大規模な言語モデルは、伝統的に拒否境界を学ぶために訓練されてきた。
これは明らかに悪意のあるプロンプトに対する強力な緩和であるが、拒否に対する安全性トレーニングの集中は、ユーザ意図が曖昧なプロンプトの脆さにつながる可能性がある。
バイナリーの拒絶境界は、ユーザー要求を高いレベルで安全に回答できる二重利用(生物学やサイバーセキュリティなど)には特に適していないが、場合によっては、十分に詳細で、あるいは実行可能な場合に悪意のある上昇につながることがある。
代替として,ユーザ意図のバイナリ分類ではなく,アシスタントのアウトプットの安全性を重視した安全訓練アプローチを提案する。
セーフコンプリートは、安全政策の制約内での利便性を最大化することを目指している。
我々は,本手法をGPT-5に組み込んで,生産比較と内部制御実験の両面で,セーフコンプリート訓練により安全性が向上し(特にデュアルユースプロンプト),残留安全性障害の重症度が低下し,モデルの有用性が著しく向上することを確認した。
関連論文リスト
- AlphaAlign: Incentivizing Safety Alignment with Extremely Simplified Reinforcement Learning [21.399086197886202]
大規模言語モデル(LLM)は、膨大な事前学習データから潜伏した安全性の理解を持っている。
安全報酬を検証可能な純粋強化学習フレームワークである textbfAlphaAlign を提案する。
これにより、モデルは、監督された安全固有の推論データに依存することなく、積極的に安全推論機能を開発することができる。
論文 参考訳(メタデータ) (2025-07-20T14:47:03Z) - Reasoning as an Adaptive Defense for Safety [31.00328416755368]
私たちは、$textitTARS$(安全のための適応推論器の訓練)というレシピを構築します。
我々は、チェーンオブソートトレースと、タスク完了と安全のバランスをとる報奨信号を用いて、安全性について推論するモデルを訓練する。
我々の研究は,lLMをジェイルブレイクや有害な要求に対して,プロンプトごとに推論することで,効果的かつオープンなレシピを提供する。
論文 参考訳(メタデータ) (2025-07-01T17:20:04Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。