論文の概要: SEE-DPO: Self Entropy Enhanced Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.04712v1
- Date: Wed, 06 Nov 2024 02:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:36.703173
- Title: SEE-DPO: Self Entropy Enhanced Direct Preference Optimization
- Title(参考訳): SEE-DPO: 自己エントロピーによる直接参照最適化
- Authors: Shivanshu Shekhar, Shreyas Singh, Tong Zhang,
- Abstract要約: 本研究では,人間フィードバックからの強化学習における自己エントロピー正規化機構を導入する。
我々の正規化技術は報酬ハッキングを効果的に軽減し、安定性と画質の向上につながる。
- 参考スコア(独自算出の注目度): 8.60638093679714
- License:
- Abstract: Direct Preference Optimization (DPO) has been successfully used to align large language models (LLMs) according to human preferences, and more recently it has also been applied to improving the quality of text-to-image diffusion models. However, DPO-based methods such as SPO, Diffusion-DPO, and D3PO are highly susceptible to overfitting and reward hacking, especially when the generative model is optimized to fit out-of-distribution during prolonged training. To overcome these challenges and stabilize the training of diffusion models, we introduce a self-entropy regularization mechanism in reinforcement learning from human feedback. This enhancement improves DPO training by encouraging broader exploration and greater robustness. Our regularization technique effectively mitigates reward hacking, leading to improved stability and enhanced image quality across the latent space. Extensive experiments demonstrate that integrating human feedback with self-entropy regularization can significantly boost image diversity and specificity, achieving state-of-the-art results on key image generation metrics.
- Abstract(参考訳): 直接選好最適化(DPO)は人間の嗜好に応じて大規模言語モデル(LLM)の整合化に成功しており、最近ではテキスト・画像拡散モデルの品質向上にも応用されている。
しかし、SPO、Diffusion-DPO、D3POといったDPOベースの手法は、特に長期トレーニングにおいて、生成モデルが分布外適合に最適化された場合、オーバーフィットや報酬ハックに対して非常に感受性が高い。
これらの課題を克服し、拡散モデルの訓練を安定させるために、人間からのフィードバックから強化学習における自己エントロピー正規化機構を導入する。
この強化は、より広範な探索とより強固な堅牢性を促進することで、DPOトレーニングを改善する。
我々の正規化技術は、報酬のハッキングを効果的に軽減し、安定性を向上し、潜伏空間における画像品質を向上させる。
大規模な実験により、人間のフィードバックと自己エントロピーの正則化を統合することで、画像の多様性と特異性が著しく向上し、重要な画像生成指標の最先端結果が得られることが示されている。
関連論文リスト
- Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。
拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。
また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文 参考訳(メタデータ) (2023-11-21T15:24:05Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Improving Sample Quality of Diffusion Models Using Self-Attention
Guidance [36.42984435784378]
自己注意誘導(SAG)は様々な拡散モデルの性能を向上させる。
SAGは拡散モデルが各領域に付随する領域のみを逆向きに曖昧にし、それに従って誘導する。
以上の結果から,SAGはADM, IDDPM, 安定拡散, DiTなど,様々な拡散モデルの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2022-10-03T13:50:58Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。