論文の概要: Arena as Offline Reward: Efficient Fine-Grained Preference Optimization for Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.06070v1
- Date: Thu, 07 May 2026 11:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.740525
- Title: Arena as Offline Reward: Efficient Fine-Grained Preference Optimization for Diffusion Models
- Title(参考訳): オフライン・リワードとしてのアリーナ:拡散モデルに対する効率的な細粒度選好最適化
- Authors: Zhikai Li, Yue Zhao, Edward Zhongwei Zhang, Xuewen Liu, Jing Zhang, Qingyi Gu, Zhen Dong,
- Abstract要約: 本稿では、Arenaのスコアをオフラインの報酬として活用し、洗練されたフィードバックを提供するArenaPOを提案する。
報酬モデルを必要としないため、オフラインで計算できるため、追加のトレーニングオーバーヘッドは発生しない。
我々は、Pick-a-Pic v2とHPD v3データセットでArenaPOトレーニングを実施し、ArenaPOが既存のベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 26.065952775368768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) effectively promotes preference alignment of text-to-image (T2I) diffusion models. To improve computational efficiency, direct preference optimization (DPO), which avoids explicit reward modeling, has been widely studied. However, its reliance on binary feedback limits it to coarse-grained modeling on chosen-rejected pairs, resulting in suboptimal optimization. In this paper, we propose ArenaPO, which leverages Arena scores as offline rewards to provide refined feedback, thus achieving efficient and fine-grained optimization without a reward model. This enables ArenaPO to benefit from both the rich rewards of traditional RLHF and the efficiency of DPO. Specifically, we first construct a model Arena in which each model's capability is represented as a Gaussian distribution, and infer these capabilities by traversing the annotated pairwise preferences. Each output image is treated as a sample from the corresponding capability distribution. Then, for a image pair, conditioned on the two capability distributions and the observed pairwise preference, the absolute quality gap is estimated using latent-variable inference based on truncated normal distribution, which serves as fine-grained feedback during training. It does not require a reward model and can be computed offline, thus introducing no additional training overhead. We conduct ArenaPO training on Pick-a-Pic v2 and HPD v3 datasets, showing that ArenaPO consistently outperforms existing baselines.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの強化学習は、テキスト・ツー・イメージ(T2I)拡散モデルの選好アライメントを効果的に促進する。
計算効率を向上させるために、明示的な報酬モデリングを避けるダイレクト・プライオリティ・最適化(DPO)が広く研究されている。
しかし、二項フィードバックへの依存は、選択された排他的ペアの粗いきめ細かなモデリングに制限され、最適化の準最適化をもたらす。
本稿では、Arenaのスコアをオフライン報酬として活用し、洗練されたフィードバックを提供することにより、報酬モデルなしで効率よく、きめ細かな最適化を実現するアレナPOを提案する。
これにより、ArenaPOは従来のRLHFの豊富な報酬とDPOの効率の両方の恩恵を受けることができる。
具体的には、まず各モデルの能力がガウス分布として表されるモデルアリーナを構築し、アノテーション付きペアワイズ選好をトラバースすることでこれらの能力を推測する。
各出力画像は、対応する能力分布からサンプルとして処理される。
そして、2つの能力分布と観察されたペアの選好に基づいて条件付けされた画像対に対して、学習中にきめ細かなフィードバックとして機能する乱れ正規分布に基づく潜在変数推論を用いて絶対品質ギャップを推定する。
報酬モデルを必要としないため、オフラインで計算できるため、追加のトレーニングオーバーヘッドは発生しない。
我々は、Pick-a-Pic v2とHPD v3データセットでArenaPOトレーニングを実施し、ArenaPOが既存のベースラインを一貫して上回ることを示す。
関連論文リスト
- Towards Better Optimization For Listwise Preference in Diffusion Models [19.40269067848114]
本稿では、リストワイズデータを持つ拡散モデルにおいて、リストワイズ選好最適化のためのフレームワークであるDiffusion-LPOを提案する。
キャプションが与えられた場合、ユーザからのフィードバックをランク付けされた画像のリストに集約し、Planet-Luceモデルの下でDPOの目的をリストワイドに拡張する。
テキスト・ツー・イメージ生成や画像編集,パーソナライズされた嗜好アライメントなど,様々なタスクにおける拡散-LPOの有効性を実証的に示す。
論文 参考訳(メタデータ) (2025-10-02T00:26:37Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [53.914481648817066]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。