論文の概要: Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation
- arxiv url: http://arxiv.org/abs/2601.12401v1
- Date: Sun, 18 Jan 2026 13:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.613862
- Title: Beyond the Dirac Delta: Mitigating Diversity Collapse in Reinforcement Fine-Tuning for Versatile Image Generation
- Title(参考訳): ディラックデルタを超えて:多彩な画像生成のための強化微細調整における多様性の崩壊の軽減
- Authors: Jinmei Liu, Haoru Li, Zhenhong Sun, Chaofeng Chen, Yatao Bian, Bo Wang, Daoyi Dong, Chunlin Chen, Zhi Wang,
- Abstract要約: textbfDRIFT(textbfDivetextbfRsity-textbfIncentivized Reinforcement textbfFine-textbfTuning for Versatile Image Generation)を提案する。
DRIFTはタスクアライメントとジェネレーションの多様性に関して優れた優位性を達成し、9.08%!sim! 43.46%$多様性等価アライメントレベルの増加と59.65ドルとなる。
- 参考スコア(独自算出の注目度): 51.305316234962554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful paradigm for fine-tuning large-scale generative models, such as diffusion and flow models, to align with complex human preferences and user-specified tasks. A fundamental limitation remains \textit{the curse of diversity collapse}, where the objective formulation and optimization landscape inherently collapse the policy to a Dirac delta distribution. To address this challenge, we propose \textbf{DRIFT} (\textbf{D}ive\textbf{R}sity-\textbf{I}ncentivized Reinforcement \textbf{F}ine-\textbf{T}uning for Versatile Image Generation), an innovative framework that systematically incentivizes output diversity throughout the on-policy fine-tuning process, reconciling strong task alignment with high generation diversity to enhance versatility essential for applications that demand diverse candidate generations. We approach the problem across three representative perspectives: i) \textbf{sampling} a reward-concentrated subset that filters out reward outliers to prevent premature collapse; ii) \textbf{prompting} with stochastic variations to expand the conditioning space, and iii) \textbf{optimization} of the intra-group diversity with a potential-based reward shaping mechanism. Experimental results show that DRIFT achieves superior Pareto dominance regarding task alignment and generation diversity, yielding a $ 9.08\%\!\sim\! 43.46\%$ increase in diversity at equivalent alignment levels and a $ 59.65\% \!\sim\! 65.86\%$ increase in alignment at equivalent levels of diversity.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、複雑な人間の嗜好やユーザ特定タスクに合わせるために、拡散やフローモデルといった大規模生成モデルを微調整するための強力なパラダイムとして登場した。
基本的な制限は「多様性の崩壊の呪い」であり、目的的定式化と最適化のランドスケープは本質的にディラックデルタ分布にポリシーを崩壊させる。
この課題に対処するため、我々は、多種多様な候補の世代を必要とするアプリケーションにおいて、高世代多様なタスクアライメントと強力なタスクアライメントを一致させ、多種多様な微調整プロセスを通して出力の多様性を体系的にインセンティブ化する革新的なフレームワークである \textbf{D}ive\textbf{R}sity-\textbf{I}ncentivized Reinforcement \textbf{F}ine-\textbf{T}uning for Versatile Image Generationを提案する。
我々は3つの代表的な視点でこの問題にアプローチする。
一 報奨金集中サブセットで、賞味期限を外して、早期の崩壊を防止すること。
二 条件空間を拡大するための確率的変動のあるtextbf{prompting}
三 報酬形成機構を有するグループ内多様性の「textbf{optimization}」
実験結果から, DRIFTはタスクアライメントと生成多様性に関して優れたパレート支配を達成し, 9.08 %\!
ようこそ!
43.46\%$同等のアライメントレベルにおける多様性の増加と59.65\% \!
ようこそ!
65.86 %$ アライメントを同等の多様性レベルで増加させる。
関連論文リスト
- DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO [50.89703227426486]
強化学習(RL)は、同一グループ内で生成された画像の相対的性能を比較することにより、画像生成品質を著しく向上させる。
トレーニングの後半段階では、モデルは創造性と視覚的多様性を欠いた均質化されたアウトプットを生成する傾向にある。
この問題は、報酬モデリングとジェネレーションダイナミクスの両方の観点から分析することができる。
論文 参考訳(メタデータ) (2025-12-25T05:37:37Z) - DiverseAR: Boosting Diversity in Bitwise Autoregressive Image Generation [22.400053095939402]
視覚的品質を犠牲にすることなく、画像の多様性を高める、原則的で効果的な方法であるDiverseARを紹介する。
具体的には、サンプリング中のバイナリ出力分布のシャープネスを動的に調整する適応ロジット分布スケーリング機構を導入する。
分散平滑化による電位忠実度損失を軽減するため,低信頼トークンのサンプリングを回避するエネルギーベース生成経路探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-12-02T16:54:36Z) - Training-Free Generation of Diverse and High-Fidelity Images via Prompt Semantic Space Optimization [50.5332987313297]
本稿では,トレーニングフリーでモデルに依存しないモジュールであるToken-Prompt Embedding Space Optimization (TPSO)を提案する。
TPSOは、トークン埋め込み空間の未表現領域を探索するために学習可能なパラメータを導入し、学習された分布の強いモードからサンプルを繰り返し生成する傾向を減少させる。
MS-COCOと3つの拡散バックボーンの実験では、TPSOは画像品質を犠牲にすることなく、生成多様性を著しく向上し、ベースライン性能を1.10から4.18ポイントに改善した。
論文 参考訳(メタデータ) (2025-11-25T00:42:09Z) - DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。