論文の概要: Drifting Preference Optimization for One-Step Generative Models
- arxiv url: http://arxiv.org/abs/2606.02521v2
- Date: Tue, 02 Jun 2026 15:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.566492
- Title: Drifting Preference Optimization for One-Step Generative Models
- Title(参考訳): 一段階生成モデルのドリフト予測最適化
- Authors: Zhou Jiang, Yandong Wen, Zhen Liu,
- Abstract要約: ワンステップのテキスト・ツー・イメージジェネレータは、単一のフォワードパスを持つイメージを生成するため、デプロイには魅力的である。
決定論的ワンステップジェネレータのオンライン選好精選手法であるドリフト選好最適化(DrPO)を提案する。
DrPOは、現在のジェネレータから候補をランク付けし、ターゲットの報酬でランク付けし、高および低スコアのサンプルを使用して特徴空間更新方向を合成する。
- 参考スコア(独自算出の注目度): 8.038055165320195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One-step text-to-image generators are attractive for deployment because they generate an image with a single forward pass, but preference finetuning them remains difficult: standard alignment methods often rely on policy likelihoods, denoising trajectories, differentiable reward gradients, or test-time optimization. We propose Drifting Preference Optimization (DrPO), an online preference-finetuning method for deterministic one-step generators. For each prompt, DrPO samples candidates from the current generator, ranks them with a target reward, and uses high- and low-scoring samples to synthesize a feature-space update direction. The update is a non-parametric dipole preference field plus a reference drift estimated from the frozen base generator, and is optimized through a detached feature-space regression target. The target reward is used only for ranking, so DrPO can train with large, black-box, or non-differentiable rewards while inference remains a single generator call. We evaluate DrPO on SD-Turbo and SDXL-Turbo with multiple target rewards and benchmarks, including HPSv3 and GenEval. DrPO improves alignment over reward-gradient-free one-step preference baselines and reduces HPSv3 training computation by $3.51\times$ under the matched effective-batch setting by removing reward-model backpropagation. Initial offline experiments suggest that sample-based gradient synthesis can also be used beyond online reward ranking.
- Abstract(参考訳): 1ステップのテキスト・ツー・イメージ・ジェネレータは、単一のフォワードパスを持つイメージを生成するため、デプロイに魅力的なものだが、好みの微調整は依然として難しい。
決定論的ワンステップジェネレータのオンライン選好精選手法であるドリフト選好最適化(DrPO)を提案する。
それぞれのプロンプトに対して、DrPOは現在のジェネレータから候補をサンプリングし、ターゲットの報酬でランク付けし、高および低スコアのサンプルを使用して特徴空間更新方向を合成する。
この更新は、非パラメトリック双極子優先フィールドと、凍結ベースジェネレータから推定される基準ドリフトであり、分離された特徴空間回帰ターゲットによって最適化される。
目標報酬はランク付けにのみ使用されるため、DrPOは大きな、ブラックボックス、あるいは差別化不可能な報酬でトレーニングできるが、推論は単一のジェネレータコールのままである。
SD-TurboとSDXL-TurboのDrPOを、HPSv3やGenEvalを含む複数の目標報酬とベンチマークで評価した。
DrPOは報酬のない1ステップの選好ベースラインのアライメントを改善し、HPSv3のトレーニング計算を3.51\times$で削減する。
最初のオフライン実験では、サンプルベースの勾配合成もオンライン報酬ランキングを超えて利用できることが示唆された。
関連論文リスト
- Gradient-Free Noise Optimization for Reward Alignment in Generative Models [52.42087778653147]
ZeNOは、経路積分制御問題としてノイズ最適化を定式化する、勾配のないフレームワークである。
効果的な推論時間スケーリングを可能にし、多様なジェネレータと報酬関数間で強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2026-05-12T00:05:36Z) - Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs [17.05976471653904]
本稿では,修正フローに特化した非政治アライメントフレームワークであるプライオリティノイズ・アウェア・プライオリティ・オプティマイズ(PNAPO)を提案する。
PNAPOは、各勝者/ロザ画像を生成するために使用するペア前のノイズを保持することにより、嗜好データを強化する。
最先端のRF T2Iバックボーンの実験では、PNAPOはトレーニング計算を大幅に削減しながら、常に嗜好の指標を改善している。
論文 参考訳(メタデータ) (2026-05-10T09:13:40Z) - RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Linear Preference Optimization: Decoupled Gradient Control via Absolute Regularization [13.97375970293678]
DPO(Direct Preference Optimization)は、その単純さと訓練安定性から、オフライン優先最適化アルゴリズムとして広く使われている。
3つの重要なイノベーションを特徴とする新しいアライメントフレームワークであるLinear Preference Optimization (LPO)を提案する。
まず,対数シグモイド関数を絶対差分損失に置き換え,最適化力学を分離することで勾配デカップリングを導入する。
第2に、選択された応答品質を維持するために、オフセット制約と正の正則化項を組み合わせることで安定性を向上させる。
第3に、直感的な推定を伴う勾配分離と、その相対確率の降下を線形に制御する調整可能な係数を用いて、制御可能な拒絶抑制を実装した。
論文 参考訳(メタデータ) (2025-08-20T10:17:29Z) - Simultaneous Reward Distillation and Preference Learning: Get You a Language Model Who Can Do Both [6.102274021710727]
本稿では, DRDO (Direct Reward Distillation and Policy-Optimization) を紹介する。
Ultrafeedback と TL;DR データセットの結果、DRDO が学習したポリシーが、期待される報酬の点で DPO や e-DPO などの手法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-10-11T02:19:11Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。