論文の概要: Personalized Safety Alignment for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.01151v1
- Date: Sat, 02 Aug 2025 02:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.731245
- Title: Personalized Safety Alignment for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルのための個人化安全アライメント
- Authors: Yu Lei, Jinbin Bai, Qingyu Shi, Aosong Feng, Kaidong Yu,
- Abstract要約: 生成モデルにおける安全行動に対するユーザ固有の制御を可能にするフレームワークを提案する。
ユーザ固有の安全設定をキャプチャする新しいデータセットであるSageを導入する。
実験により、PSAは有害なコンテンツ抑制において既存の方法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 5.768305270318872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models have revolutionized visual content generation, but current safety mechanisms apply uniform standards that often fail to account for individual user preferences. These models overlook the diverse safety boundaries shaped by factors like age, mental health, and personal beliefs. To address this, we propose Personalized Safety Alignment (PSA), a framework that allows user-specific control over safety behaviors in generative models. PSA integrates personalized user profiles into the diffusion process, adjusting the model's behavior to match individual safety preferences while preserving image quality. We introduce a new dataset, Sage, which captures user-specific safety preferences and incorporates these profiles through a cross-attention mechanism. Experiments show that PSA outperforms existing methods in harmful content suppression and aligns generated content better with user constraints, achieving higher Win Rate and Pass Rate scores. Our code, data, and models are publicly available at https://torpedo2648.github.io/PSAlign/.
- Abstract(参考訳): テキストから画像への拡散モデルは、視覚的コンテンツ生成に革命をもたらしたが、現在の安全メカニズムは、個々のユーザの好みを考慮できないような統一された標準を適用している。
これらのモデルは、年齢、メンタルヘルス、個人的信念といった要因によって形成された多様な安全境界を見渡せる。
そこで本研究では、生成モデルにおける安全行動に対するユーザ固有の制御を可能にするフレームワークであるパーソナライズド・セーフティ・アライメント(PSA)を提案する。
PSAは、パーソナライズされたユーザープロファイルを拡散プロセスに統合し、画像の品質を維持しながら、個人の安全選好に合わせてモデルの振る舞いを調整する。
我々は、ユーザ固有の安全設定をキャプチャし、これらのプロファイルをクロスアテンションメカニズムを通じて組み込む新しいデータセット、Sageを紹介した。
実験の結果、PSAは有害なコンテンツ抑制において既存の手法よりも優れており、生成したコンテンツをユーザの制約に適合させ、より高いウィンレートとパスレートのスコアを達成できることがわかった。
私たちのコード、データ、モデルはhttps://torpedo2648.github.io/PSAlign/で公開されています。
関連論文リスト
- SGM: A Framework for Building Specification-Guided Moderation Filters [13.627536649679577]
大規模言語モデル(LLM)は、脱獄のような不適応や敵対的な入力に影響を受けやすい。
SGM(Specification-Guided Moderation)は,ユーザ定義仕様に基づいてモデレーションフィルタをトレーニングするためのフレキシブルなフレームワークである。
SGMでトレーニングされたフィルタは、キュレートされたデータセット上に構築された最先端の安全フィルタと同等に動作し、きめ細かい調整とユーザ定義のアライメント制御をサポートする。
論文 参考訳(メタデータ) (2025-05-26T09:49:43Z) - Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets [49.412887135146725]
大規模言語モデル(LLM)の安全性を考慮したポストトレーニング防衛手法であるSafe Deltaを提案する。
当社のアプローチは、良質なデータセットからのユーティリティゲインが影響を受けないことを保証しながら、安全を継続的に維持します。
論文 参考訳(メタデータ) (2025-05-17T15:01:07Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - Safety Alignment Backfires: Preventing the Re-emergence of Suppressed Concepts in Fine-tuned Text-to-Image Diffusion Models [57.16056181201623]
微調整されたテキストと画像の拡散モデルは、必然的に安全対策を解除し、有害な概念を再現する。
本報告では,Funice-Tuning LoRAコンポーネントとは別に,安全性の低い適応モジュールをトレーニングする,Modular LoRAと呼ばれる新しいソリューションを提案する。
本手法は,新しいタスクにおけるモデルの性能を損なうことなく,有害なコンテンツの再学習を効果的に防止する。
論文 参考訳(メタデータ) (2024-11-30T04:37:38Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。