論文の概要: UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases
- arxiv url: http://arxiv.org/abs/2507.21652v1
- Date: Tue, 29 Jul 2025 10:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.976635
- Title: UnsafeChain: Enhancing Reasoning Model Safety via Hard Cases
- Title(参考訳): UnsafeChain: ハードケースによる推論モデルの安全性向上
- Authors: Raj Vardhan Tomar, Preslav Nakov, Yuxia Wang,
- Abstract要約: さまざまなソースを持つハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainをリリースする。
我々は3つの大きな推論モデル(LRM)を微調整し、それらを最近のSafeChainとSTAR-1と比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越えながら、従来よりも一貫してパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 33.50554956301584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large reasoning models (LRMs) grow more capable, chain-of-thought (CoT) reasoning introduces new safety challenges. Existing SFT-based safety alignment studies dominantly focused on filtering prompts with safe, high-quality responses, while overlooking hard prompts that always elicit harmful outputs. To fill this gap, we introduce UnsafeChain, a safety alignment dataset constructed from hard prompts with diverse sources, where unsafe completions are identified and explicitly corrected into safe responses. By exposing models to unsafe behaviors and guiding their correction, UnsafeChain enhances safety while preserving general reasoning ability. We fine-tune three LRMs on UnsafeChain and compare them against recent SafeChain and STAR-1 across six out-of-distribution and five in-distribution benchmarks. UnsafeChain consistently outperforms prior datasets, with even a 1K subset matching or surpassing baseline performance, demonstrating the effectiveness and generalizability of correction-based supervision. We release our dataset and code at https://github.com/mbzuai-nlp/UnsafeChain
- Abstract(参考訳): 大きな推論モデル(LRM)がより有能になるにつれて、チェーン・オブ・ソート(CoT)推論は新たな安全性の課題をもたらす。
既存のSFTベースの安全アライメント研究は、安全で高品質な応答を持つフィルタリングプロンプトに重点を置いている一方で、有害な出力を常に引き起こすハードプロンプトを見下ろしている。
このギャップを埋めるために、さまざまなソースでハードプロンプトから構築された安全アライメントデータセットであるUnsafeChainを紹介します。
モデルを安全でない振る舞いに公開し、その修正を導くことで、UnsafeChainは一般的な推論能力を保ちながら安全性を高める。
我々は、UnsafeChainに3つのLEMを微調整し、最新のSafeChainとSTAR-1を6つのアウト・オブ・ディストリビューションと5つのイン・ディストリビューション・ベンチマークで比較する。
UnsafeChainは、1Kサブセットのマッチングやベースラインのパフォーマンスを越え、修正ベースの監視の有効性と一般化性を実証して、以前のデータセットを一貫して上回る。
データセットとコードはhttps://github.com/mbzuai-nlp/UnsafeChainでリリースしています。
関連論文リスト
- HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。
私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。
我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T07:26:34Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。