論文の概要: Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs
- arxiv url: http://arxiv.org/abs/2605.09433v1
- Date: Sun, 10 May 2026 09:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.249555
- Title: Offline Preference Optimization for Rectified Flow with Noise-Tracked Pairs
- Title(参考訳): 騒音追従対を有する整流流れのオフライン予測最適化
- Authors: Yunhong Lu, Qichao Wang, Hengyuan Cao, Xiaoyin Xu, Min Zhang,
- Abstract要約: 本稿では,修正フローに特化した非政治アライメントフレームワークであるプライオリティノイズ・アウェア・プライオリティ・オプティマイズ(PNAPO)を提案する。
PNAPOは、各勝者/ロザ画像を生成するために使用するペア前のノイズを保持することにより、嗜好データを強化する。
最先端のRF T2Iバックボーンの実験では、PNAPOはトレーニング計算を大幅に削減しながら、常に嗜好の指標を改善している。
- 参考スコア(独自算出の注目度): 17.05976471653904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing preference datasets for text-to-image models typically store only the final winner/loser images. This representation is insufficient for rectified flow (RF) models, whose generation is naturally indexed by a specific prior noise sample and follows a nearly straight denoising trajectory. In contrast, prior DPO-style alignment for diffusion models commonly estimates trajectories using an independent forward noising process, which can be mismatched to the true reverse dynamics and introduces unnecessary variance. We propose Prior Noise-Aware Preference Optimization (PNAPO), an off-policy alignment framework specialized for rectified flow. PNAPO augments preference data by retaining the paired prior noises used to generate each winner/loser image, turning the standard (prompt, winner, loser) triplet into a sextuple. Leveraging the straight-line property of RF, we estimate intermediate states via noise-image interpolation, which constrains the trajectory estimation space and yields a tighter surrogate objective for preference optimization. In addition, we introduce a dynamic regularization strategy that adapts the DPO regularization based on (i) the reward gap between winner and loser and (ii) training progress, improving stability and sample efficiency. Experiments on state-of-the-art RF T2I backbones show that PNAPO consistently improves preference metrics while substantially reducing training compute.
- Abstract(参考訳): テキスト・ツー・イメージモデルの既存の好みデータセットは通常、最終的な勝者/ロッサー画像のみを格納する。
この表現は、特定の先行ノイズサンプルによって自然にインデックス付けされ、ほぼ直線的な軌道を辿る正流(RF)モデルには不十分である。
対照的に、拡散モデルに対する以前のDPOスタイルのアライメントは、独立なフォワード法を用いて軌道を推定することが一般的であり、これは真の逆ダイナミクスとミスマッチし、不必要な分散をもたらす。
本稿では,修正フローに特化した非政治アライメントフレームワークであるプライオリティノイズ・アウェア・プライオリティ・オプティマイズ(PNAPO)を提案する。
PNAPOは、各勝者/敗者画像を生成するために使用するペアの先行ノイズを保持し、標準(プロンプト、勝者、敗者)をセクシュタプルにすることで、嗜好データを強化する。
RFの直線特性を利用して、軌道推定空間を制約するノイズ像補間により中間状態を推定し、優先最適化のためにより厳密な代理目的を与える。
さらに、DPO正則化をベースとした動的正則化戦略を導入する。
一 勝者と敗者の間の報酬格差
(二)訓練の進行、安定性の向上、サンプル効率の向上。
最先端のRF T2Iバックボーンの実験では、PNAPOはトレーニング計算を大幅に削減しながら、常に嗜好の指標を改善している。
関連論文リスト
- Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers [12.948398661304184]
Diffusion-APOは、ビデオ拡散モデルと人間の意図を一致させる軌跡認識アルゴリズムである。
オンラインランキング、半オンラインアンカー、オフラインリファインメント、蒸留対応ドリフト補正を統合した統一かつモジュール化されたRLHFフレームワークを導入する。
本研究では,Diffusion-APOが視覚的品質と指示の基準線を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-08T09:37:46Z) - wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment [48.487557157323664]
実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
目的の介入によって異なるノイズタイプに対処することで、ロバストな選好アライメントの利点が示される。
論文 参考訳(メタデータ) (2026-03-07T13:30:53Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。
本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。
提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文 参考訳(メタデータ) (2025-06-03T09:47:22Z) - FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。
提案手法はSOTA法よりも10倍高速である。
論文 参考訳(メタデータ) (2024-07-28T10:07:55Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。