論文の概要: Beyond Pairwise Preferences: Listwise Reward-Aware Alignment for Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.26491v1
- Date: Tue, 26 May 2026 03:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.596353
- Title: Beyond Pairwise Preferences: Listwise Reward-Aware Alignment for Diffusion Models
- Title(参考訳): ペアワイズ選好を超えて:拡散モデルに対するリスワイズ・リワード・アウェアアライメント
- Authors: Austin Wang, Jiaqi Han, Stefano Ermon, Yisong Yue,
- Abstract要約: Diffusion LAIRは、拡散モデルに対する報酬を考慮したリストワイズ選好最適化手法である。
実験により、テキスト・ツー・イメージ生成、合成生成、画像編集ベンチマークにおいて、強い優先最適化ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 73.08789211016567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization has emerged as an efficient alternative to online reinforcement learning from human feedback (RLHF) for aligning text-to-image diffusion models. However, existing methods largely reduce supervision to binary pairwise comparisons. This pairwise reduction is limiting when training data naturally contains multiple candidate images for the same prompt, and when continuous reward scores can provide richer information than a single winner-loser label. To address these limitations, we propose Diffusion LAIR, a reward-aware listwise preference optimization method for diffusion models. For each prompt, LAIR converts reward scores across a group of candidate images into centered advantage weights, then optimizes an advantage-weighted regression objective on the implicit reward, defined as the denoising-loss improvement of the current model over a fixed reference model, with a quadratic penalty that regularizes the magnitude of the implicit reward. The resulting objective uses all candidates simultaneously rather than selecting pairs, and remains conservative by explicitly controlling the magnitude of the implicit reward. The LAIR objective admits a bounded closed-form optimum in implicit-reward space, clarifying how the regularization strength controls the magnitude of the preference update. Experiments show that Diffusion LAIR outperforms strong preference optimization baselines on SD1.5 and SDXL across text-to-image generation, compositional generation, and image editing benchmarks.
- Abstract(参考訳): テキストと画像の拡散モデルを調整するために、人間のフィードバック(RLHF)からオンライン強化学習に代わる効果的な方法として、優先度最適化が登場した。
しかし、既存の手法は二対比較の監督を大幅に減らしている。
このペアワイズ削減は、トレーニングデータが同一のプロンプトに対して複数の候補画像を自然に含む場合に制限され、連続報酬スコアが1つの勝者ロザラベルよりもリッチな情報を提供できる場合に制限される。
これらの制約に対処するため、拡散モデルに対する報酬を考慮したリストワイズ選好最適化手法であるDiffusion LAIRを提案する。
それぞれのプロンプトに対して、LAIRは、候補画像群にわたる報酬スコアを中心となる有利な重み付けに変換し、次に、固定参照モデルよりも現在のモデルのノイズロス改善として定義された暗黙の報酬に対する有利な回帰目標を最適化し、暗黙の報酬の規模を規則化する二次的なペナルティを持つ。
結果として得られる目的は、ペアを選択するのではなく、すべての候補を同時に使用し、暗黙の報酬の規模を明示的に制御することで保守的である。
LAIRの目的は、暗黙の逆空間における有界閉形式最適化を認め、正規化強度が優先更新の規模をいかに制御するかを明確にする。
Diffusion LAIRは、テキスト・ツー・イメージ生成、合成生成、画像編集ベンチマークにおいて、SD1.5とSDXLの強い優先最適化ベースラインよりも優れていた。
関連論文リスト
- Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs [17.05976471653904]
本稿では,修正フローに特化した非政治アライメントフレームワークであるプライオリティノイズ・アウェア・プライオリティ・オプティマイズ(PNAPO)を提案する。
PNAPOは、各勝者/ロザ画像を生成するために使用するペア前のノイズを保持することにより、嗜好データを強化する。
最先端のRF T2Iバックボーンの実験では、PNAPOはトレーニング計算を大幅に削減しながら、常に嗜好の指標を改善している。
論文 参考訳(メタデータ) (2026-05-10T09:13:40Z) - FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:36:33Z) - Diffusion-SDPO: Safeguarded Direct Preference Optimization for Diffusion Models [38.27881260102189]
Diffusion-SDPOは、勝者勾配との整合性に応じて、敗者勾配を適応的にスケーリングすることで勝者を保護する安全な更新ルールである。
提案手法は,既存のDPOスタイルのアライメントフレームワークと広く互換性があり,限界計算オーバーヘッドのみを付加する。
論文 参考訳(メタデータ) (2025-11-05T09:30:49Z) - MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models [86.07486858219137]
拡散モデルは、テキストプロンプトに条件付けされた画像を生成するのに優れている。
得られた画像は、Aesthetic Scoresのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
近年,ノイズ最適化による推定時間アライメントが,効率的な代替手段として浮上している。
このアプローチは報酬のハッキングに苦しめられ、モデルが高いスコアの画像を生成できるが、元のプロンプトとはかなり異なる。
論文 参考訳(メタデータ) (2025-10-02T00:47:36Z) - Towards Better Optimization For Listwise Preference in Diffusion Models [19.40269067848114]
本稿では、リストワイズデータを持つ拡散モデルにおいて、リストワイズ選好最適化のためのフレームワークであるDiffusion-LPOを提案する。
キャプションが与えられた場合、ユーザからのフィードバックをランク付けされた画像のリストに集約し、Planet-Luceモデルの下でDPOの目的をリストワイドに拡張する。
テキスト・ツー・イメージ生成や画像編集,パーソナライズされた嗜好アライメントなど,様々なタスクにおける拡散-LPOの有効性を実証的に示す。
論文 参考訳(メタデータ) (2025-10-02T00:26:37Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。