論文の概要: Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.24146v1
- Date: Tue, 30 Dec 2025 11:17:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.364094
- Title: Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning
- Title(参考訳): 拡散強化学習におけるディレクショナルデカップリングアライメントによる選好モードの分解
- Authors: Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li,
- Abstract要約: 本稿では,PMC(Preference Mode Collapse)を緩和する新しいフレームワークを提案する。
D$2$-Alignは、人間の好みと優れた整合性を達成する。
- 参考スコア(独自算出の注目度): 27.33241821967005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated significant progress in aligning text-to-image diffusion models with human preference via Reinforcement Learning from Human Feedback. However, while existing methods achieve high scores on automated reward metrics, they often lead to Preference Mode Collapse (PMC)-a specific form of reward hacking where models converge on narrow, high-scoring outputs (e.g., images with monolithic styles or pervasive overexposure), severely degrading generative diversity. In this work, we introduce and quantify this phenomenon, proposing DivGenBench, a novel benchmark designed to measure the extent of PMC. We posit that this collapse is driven by over-optimization along the reward model's inherent biases. Building on this analysis, we propose Directional Decoupling Alignment (D$^2$-Align), a novel framework that mitigates PMC by directionally correcting the reward signal. Specifically, our method first learns a directional correction within the reward model's embedding space while keeping the model frozen. This correction is then applied to the reward signal during the optimization process, preventing the model from collapsing into specific modes and thereby maintaining diversity. Our comprehensive evaluation, combining qualitative analysis with quantitative metrics for both quality and diversity, reveals that D$^2$-Align achieves superior alignment with human preference.
- Abstract(参考訳): 近年の研究では、人間のフィードバックからの強化学習を通じて、テキストと画像の拡散モデルと人間の嗜好の整合性を示す顕著な進歩が示されている。
しかし、既存の手法は自動報酬の指標で高いスコアを得る一方で、予測モード・コラプス(PMC)はモデルが狭くハイスコアな出力(例えば、モノリシックなスタイルや広範に露出した画像など)に収束し、生成性の多様性を著しく低下させる特定の形式の報酬ハックに繋がることが多い。
本研究では,PMCの広さを測定するために設計された新しいベンチマークであるDivGenBenchを提案する。
この崩壊は報酬モデル固有のバイアスに沿った過度な最適化によって引き起こされると仮定する。
この分析に基づいて、報酬信号の方向補正によりPMCを緩和する新しいフレームワークである方向性疎結合アライメント(D$^2$-Align)を提案する。
具体的には、まず報酬モデルの埋め込み空間内の方向補正を学習し、モデルを凍結させながら学習する。
この補正は最適化プロセス中に報酬信号に適用され、モデルが特定のモードに崩壊するのを防止し、多様性を維持する。
質と多様性の両面で質的分析と定量的指標を組み合わせた総合評価の結果,D$^2$-Align が人間の嗜好に優越していることが判明した。
関連論文リスト
- Multi-dimensional Preference Alignment by Conditioning Reward Itself [32.33870784484853]
Multi Reward Conditional DPOは、非絡み合いのBradley-Terry目標を導入することで、報酬競合を解決する。
安定1.5とSDXLの実験は、MCDPOがベンチマーク上で優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-12-11T02:44:31Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Generative Model Inversion Through the Lens of the Manifold Hypothesis [98.37040155914595]
モデル反転攻撃(MIA)は、訓練されたモデルからクラス表現型サンプルを再構成することを目的としている。
最近の生成的MIAは、生成的敵ネットワークを使用して、反転過程を導く画像の事前学習を行う。
論文 参考訳(メタデータ) (2025-09-24T14:39:25Z) - S$^2$-Guidance: Stochastic Self Guidance for Training-Free Enhancement of Diffusion Models [26.255679321570014]
S2-Guidanceは、フォワードプロセス中のブロックドロップを利用してサブネットワークを構築する新しい方法である。
テキスト・ツー・イメージおよびテキスト・ツー・ビデオ生成タスクの実験は、S2-Guidanceが優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2025-08-18T12:31:20Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。