論文の概要: Multi-dimensional Preference Alignment by Conditioning Reward Itself
- arxiv url: http://arxiv.org/abs/2512.10237v1
- Date: Thu, 11 Dec 2025 02:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.173281
- Title: Multi-dimensional Preference Alignment by Conditioning Reward Itself
- Title(参考訳): Reward Itself の条件付けによる多次元選好アライメント
- Authors: Jiho Jang, Jinyoung Kim, Kyungjune Baek, Nojun Kwak,
- Abstract要約: Multi Reward Conditional DPOは、非絡み合いのBradley-Terry目標を導入することで、報酬競合を解決する。
安定1.5とSDXLの実験は、MCDPOがベンチマーク上で優れたパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 32.33870784484853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback has emerged as a standard for aligning diffusion models. However, we identify a fundamental limitation in the standard DPO formulation because it relies on the Bradley-Terry model to aggregate diverse evaluation axes like aesthetic quality and semantic alignment into a single scalar reward. This aggregation creates a reward conflict where the model is forced to unlearn desirable features of a specific dimension if they appear in a globally non-preferred sample. To address this issue, we propose Multi Reward Conditional DPO (MCDPO). This method resolves reward conflicts by introducing a disentangled Bradley-Terry objective. MCDPO explicitly injects a preference outcome vector as a condition during training, which allows the model to learn the correct optimization direction for each reward axis independently within a single network. We further introduce dimensional reward dropout to ensure balanced optimization across dimensions. Extensive experiments on Stable Diffusion 1.5 and SDXL demonstrate that MCDPO achieves superior performance on benchmarks. Notably, our conditional framework enables dynamic and multiple-axis control at inference time using Classifier Free Guidance to amplify specific reward dimensions without additional training or external reward models.
- Abstract(参考訳): Reinforcement Learning from Human Feedbackは拡散モデルの整合の標準として登場した。
しかし、Bradley-Terryモデルに頼り、審美的品質やセマンティックアライメントなどの多様な評価軸を単一のスカラー報酬に集約するため、標準DPO定式化の基本的な制限を識別する。
このアグリゲーションは、世界規模で非推奨のサンプルに現れる場合、モデルが特定の次元の望ましい特徴を解放せざるを得ない報酬の衝突を生じさせる。
この問題に対処するため,Multi Reward Conditional DPO(MCDPO)を提案する。
この方法は、非絡み合いのブラッドリー・テリー目標を導入することで、報酬相反を解消する。
MCDPOは、トレーニング中の条件として優先結果ベクトルを明示的に注入し、単一のネットワーク内で各報酬軸に対する正しい最適化方向を学習することができる。
さらに,次元間のバランスの取れた最適化を確保するために,次元報酬のドロップアウトを導入する。
安定拡散1.5およびSDXLに関する大規模な実験は、MCDPOがベンチマーク上で優れた性能を発揮することを示した。
特に、我々の条件付きフレームワークは、クラス化自由誘導を用いて推論時の動的および多重軸制御を可能にし、追加のトレーニングや外部報酬モデルなしで特定の報酬次元を増幅する。
関連論文リスト
- A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models [18.249363312256722]
AMoPOは、選好次元間の動的バランスを実現する新しいフレームワークである。
本稿では,次元認識尺度を暗黙の報酬として用いるために,多目的最適化パラダイムを導入する。
実証的な結果は、AMoPOが最先端のベースラインを28.5%上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-08T14:31:06Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。