論文の概要: Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2504.14290v1
- Date: Sat, 19 Apr 2025 13:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 03:35:49.795652
- Title: Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization
- Title(参考訳): 安全制約直接参照最適化によるNSFWフリーテキスト・ツー・イメージ生成に向けて
- Authors: Shouwei Ruan, Zhenyu Wu, Yao Huang, Ruochen Zhang, Yitong Sun, Caixin Kang, Xingxing Wei,
- Abstract要約: 既存の研究は、潜在的に有害な概念の下で完全な安全性を保証することができず、また、生成品質と安全性のバランスをとるのに苦労している。
本稿では,T2Iモデルにおける安全性アライメントのための新しいフレームワークである,SC-DPO(Safety-Constrained Direct Preference Optimization)を提案する。
SC-DPOは、ヒトが好むサンプルを生成する可能性の最大化を目的として、安全性の制約を一般的なヒトの選好校正に統合する。
- 参考スコア(独自算出の注目度): 30.31991120463517
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Ensuring the safety of generated content remains a fundamental challenge for Text-to-Image (T2I) generation. Existing studies either fail to guarantee complete safety under potentially harmful concepts or struggle to balance safety with generation quality. To address these issues, we propose Safety-Constrained Direct Preference Optimization (SC-DPO), a novel framework for safety alignment in T2I models. SC-DPO integrates safety constraints into the general human preference calibration, aiming to maximize the likelihood of generating human-preferred samples while minimizing the safety cost of the generated outputs. In SC-DPO, we introduce a safety cost model to accurately quantify harmful levels for images, and train it effectively using the proposed contrastive learning and cost anchoring objectives. To apply SC-DPO for effective T2I safety alignment, we constructed SCP-10K, a safety-constrained preference dataset containing rich harmful concepts, which blends safety-constrained preference pairs under both harmful and clean instructions, further mitigating the trade-off between safety and sample quality. Additionally, we propose a Dynamic Focusing Mechanism (DFM) for SC-DPO, promoting the model's learning of difficult preference pair samples. Extensive experiments demonstrate that SC-DPO outperforms existing methods, effectively defending against various NSFW content while maintaining optimal sample quality and human preference alignment. Additionally, SC-DPO exhibits resilience against adversarial prompts designed to generate harmful content.
- Abstract(参考訳): 生成されたコンテンツの安全性を確保することは、テキスト・ツー・イメージ(T2I)生成の根本的な課題である。
既存の研究は、潜在的に有害な概念の下で完全な安全性を保証できないか、または、生成品質と安全性のバランスをとるのに苦労している。
これらの問題に対処するため、T2Iモデルにおける安全性アライメントのための新しいフレームワークである、SC-DPO(Safety-Constrained Direct Preference Optimization)を提案する。
SC-DPOは安全性の制約を一般の人間の嗜好の校正に統合し、生成した出力の安全性を最小化しつつ、ヒトが好むサンプルを生成する可能性の最大化を図る。
SC-DPOでは、画像の有害レベルを正確に定量化するための安全コストモデルを導入し、提案したコントラスト学習とコストアンカー目的を用いて効果的にトレーニングする。
SC-DPOを有効T2I安全アライメントに適用するために,有害な概念とクリーンな指示の両方で安全制約された選好ペアをブレンドし,安全性とサンプル品質のトレードオフを緩和する,リッチな有害な概念を含む安全制約された選好データセットであるSCP-10Kを構築した。
さらに,SC-DPO のための動的フォーカス機構 (DFM) を提案する。
SC-DPOは, 種々のNSFW含有量に対して有効に防御し, 最適な試料品質と人為的嗜好調整を維持しながら, 既存の方法より優れることを示した。
さらに、SC-DPOは有害な内容を生成するために設計された敵のプロンプトに対してレジリエンスを示す。
関連論文リスト
- SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
テキスト・ツー・イメージ(T2I)モデルは広く普及しているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
現在の安全対策はテキストベースのフィルタリングや概念除去戦略に限られており、モデルの生成能力からわずかに概念を除去することができる。
直接選好最適化(DPO)によるT2Iモデルの安全アライメント手法であるSafetyDPOを導入する。
我々は、ローランク適応(LoRA)行列の形で、特定の安全関連から生成プロセスを導くことができる安全専門家を訓練する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - ConstrainedZero: Chance-Constrained POMDP Planning using Learned Probabilistic Failure Surrogates and Adaptive Safety Constraints [34.9739641898452]
本研究では、最適値とポリシーのニューラルネットワーク近似を学習することにより、信念空間におけるCC-POMDPを解くConstrainedZeroポリシーアルゴリズムを導入する。
その結果, 目標から安全制約を分離することで, 報酬とコストのバランスを最適化することなく, 目標となる安全レベルを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-01T17:17:22Z) - Enhancing LLM Safety via Constrained Direct Preference Optimization [8.22888921018027]
我々は、最近提案されたAIシステムのためのDPO(Direct Preference Optimization)アプローチの新たな拡張であるConstrained DPO(C-DPO)を紹介する。
二重勾配降下法とDPOを併用することにより,強化学習を用いることなく,有用性と無害性との間のほぼ最適なトレードオフを同定する。
提案手法は, DPO に欠落している LLM に対して, 同じ安全性制約の下では, 極めて高い報酬を得られることを実証的に保証する。
論文 参考訳(メタデータ) (2024-03-04T20:39:24Z) - Concurrent Learning of Policy and Unknown Safety Constraints in Reinforcement Learning [4.14360329494344]
強化学習(Reinforcement Learning, RL)は、過去数十年にわたって、幅広い領域で意思決定に革命をもたらした。
しかし、現実のシナリオにRLポリシーをデプロイすることは、安全性を確保する上で重要な課題である。
従来の安全RLアプローチは、事前に定義された安全制約を政策学習プロセスに組み込むことに重点を置いてきた。
本稿では,安全なRL制御ポリシを同時に学習し,その環境の未知の安全制約パラメータを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T20:01:15Z) - Bayesian Optimization with Formal Safety Guarantees via Online Conformal Prediction [36.14499894307206]
ブラックボックスゼロ階最適化は、金融、物理学、工学といった分野における応用において中心的な原始である。
本稿では,提案手法の安全性に関するフィードバックも提供するシナリオについて検討する。
制約関数の性質に関わらず、安全要件を満たす新しいBOベースのアプローチが導入された。
論文 参考訳(メタデータ) (2023-06-30T17:26:49Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。