論文の概要: DRAGON: Distributional Rewards Optimize Diffusion Generative Models
- arxiv url: http://arxiv.org/abs/2504.15217v1
- Date: Mon, 21 Apr 2025 16:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 14:36:11.552099
- Title: DRAGON: Distributional Rewards Optimize Diffusion Generative Models
- Title(参考訳): DRAGON:分散リワードによる拡散生成モデル最適化
- Authors: Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan,
- Abstract要約: DAGON(Generative OptimizatioN)のための分散RewArdを提案する。
DRAGONは、微調整メディア生成モデルのための多用途フレームワークである。
個々の例や分布を評価する報酬関数を最適化することができる。
- 参考スコア(独自算出の注目度): 16.415463534144877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Distributional RewArds for Generative OptimizatioN (DRAGON), a versatile framework for fine-tuning media generation models towards a desired outcome. Compared with traditional reinforcement learning with human feedback (RLHF) or pairwise preference approaches such as direct preference optimization (DPO), DRAGON is more flexible. It can optimize reward functions that evaluate either individual examples or distributions of them, making it compatible with a broad spectrum of instance-wise, instance-to-distribution, and distribution-to-distribution rewards. Leveraging this versatility, we construct novel reward functions by selecting an encoder and a set of reference examples to create an exemplar distribution. When cross-modality encoders such as CLAP are used, the reference examples may be of a different modality (e.g., text versus audio). Then, DRAGON gathers online and on-policy generations, scores them to construct a positive demonstration set and a negative set, and leverages the contrast between the two sets to maximize the reward. For evaluation, we fine-tune an audio-domain text-to-music diffusion model with 20 different reward functions, including a custom music aesthetics model, CLAP score, Vendi diversity, and Frechet audio distance (FAD). We further compare instance-wise (per-song) and full-dataset FAD settings while ablating multiple FAD encoders and reference sets. Over all 20 target rewards, DRAGON achieves an 81.45% average win rate. Moreover, reward functions based on exemplar sets indeed enhance generations and are comparable to model-based rewards. With an appropriate exemplar set, DRAGON achieves a 60.95% human-voted music quality win rate without training on human preference annotations. As such, DRAGON exhibits a new approach to designing and optimizing reward functions for improving human-perceived quality. Sound examples at https://ml-dragon.github.io/web.
- Abstract(参考訳): 本稿では,メディア生成モデルを最適化するための汎用フレームワークDRAGON(Distributedal RewArds for Generative OptimizatioN)を提案する。
従来の強化学習と人間のフィードバック(RLHF)、あるいは直接選好最適化(DPO)のようなペアワイズ選好アプローチと比較すると、DRAGONはより柔軟である。
個々の例や分布を評価する報酬関数を最適化し、インスタンスワイド、インスタンス・トゥ・ディストリビューション、分散・トゥ・ディストリビューションの報酬の幅広いスペクトルと互換性を持つ。
この汎用性を活用し、エンコーダと参照例のセットを選択して新しい報酬関数を構築し、模範分布を生成する。
CLAPのようなクロスモーダルエンコーダを使用する場合、参照例は異なるモダリティ(例えば、テキスト対オーディオ)である。
そして、DRAGONはオンラインとオンラインの世代を集め、それらをスコア付けしてポジティブなデモセットとネガティブなセットを構築し、2つのセットのコントラストを利用して報酬を最大化する。
評価のために、カスタム音楽美学モデル、CLAPスコア、Vendi多様性、Frechetオーディオ距離(FAD)を含む20種類の報酬関数を持つオーディオドメインのテキスト間拡散モデルを微調整する。
さらに、複数のFADエンコーダと参照セットを非難しながら、インスタンスワイズ(歌ごと)とフルデータセットのFAD設定を比較します。
目標20回中、DRAGONは平均81.45%の勝利率を達成した。
さらに、例集合に基づく報酬関数は、実際に世代を拡大し、モデルベースの報酬に匹敵する。
適切な模範セットで、DRAGONは人間の好みのアノテーションをトレーニングすることなく、60.95%の人間の声質の勝利率を達成する。
このように、DRAGONは、人間の知覚品質を改善するための報酬関数の設計と最適化のための新しいアプローチを示す。
例はhttps://ml-dragon.github.io/web.com。
関連論文リスト
- Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。
実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。
サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文 参考訳(メタデータ) (2025-02-24T04:22:57Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。