論文の概要: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
- arxiv url: http://arxiv.org/abs/2509.06942v2
- Date: Tue, 09 Sep 2025 16:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.850692
- Title: Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference
- Title(参考訳): 微粒な人間の選好による全拡散軌道の直列配向
- Authors: Xiangwei Shen, Zhimin Li, Zhantao Yang, Shiyi Zhang, Yingfang Zhang, Donghao Li, Chunyu Wang, Qinglin Lu, Yansong Tang,
- Abstract要約: 我々は,任意の時間ステップから勾配計算によって元の画像を効果的に復元するために,ノイズを事前に定義する手法であるDirect-Alignを提案する。
また,テキスト条件付き信号として報酬を定式化するセマンティック相対選好最適化(SRPO)についても紹介する。
FLUXモデルを最適化およびオンライン報酬調整により微調整することにより、人間の評価されたリアリズムと美的品質を3倍以上改善する。
- 参考スコア(独自算出の注目度): 41.498905319841874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated the effectiveness of directly aligning diffusion models with human preferences using differentiable reward. However, they exhibit two primary challenges: (1) they rely on multistep denoising with gradient computation for reward scoring, which is computationally expensive, thus restricting optimization to only a few diffusion steps; (2) they often need continuous offline adaptation of reward models in order to achieve desired aesthetic quality, such as photorealism or precise lighting effects. To address the limitation of multistep denoising, we propose Direct-Align, a method that predefines a noise prior to effectively recover original images from any time steps via interpolation, leveraging the equation that diffusion states are interpolations between noise and target images, which effectively avoids over-optimization in late timesteps. Furthermore, we introduce Semantic Relative Preference Optimization (SRPO), in which rewards are formulated as text-conditioned signals. This approach enables online adjustment of rewards in response to positive and negative prompt augmentation, thereby reducing the reliance on offline reward fine-tuning. By fine-tuning the FLUX model with optimized denoising and online reward adjustment, we improve its human-evaluated realism and aesthetic quality by over 3x.
- Abstract(参考訳): 近年の研究では、微分可能な報酬を用いた拡散モデルと人間の嗜好を直接整合させることの有効性が実証されている。
しかし,2つの主な課題は,(1)計算コストのかかる報奨点数に勾配計算を頼り,最適化を少数の拡散段階に制限すること,(2)フォトリアリズムや正確な照明効果などの美的品質を達成するために,報酬モデルの連続的なオフライン適応が必要であること,の2つである。
マルチステップデノベーションの限界に対処するため,遅延時間における過度な最適化を効果的に回避し,ノイズとターゲット画像の拡散状態が補間であるという方程式を活用することで,任意の時間ステップから元の画像を効果的に復元する前にノイズを事前に定義する手法であるDirect-Alignを提案する。
さらに,文条件付き信号として報酬を定式化するセマンティック相対選好最適化(SRPO)を導入する。
このアプローチにより、正および負のプロンプト増大に対応する報酬のオンライン調整が可能となり、オフラインの報酬微調整への依存を減らすことができる。
FLUXモデルを最適化およびオンライン報酬調整により微調整することにより、人間の評価されたリアリズムと美的品質を3倍以上改善する。
関連論文リスト
- Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning [23.02076024811612]
テキスト・ツー・イメージ(T2I)拡散モデルにおける微細調整による強化学習(RL)の最近の進歩により、生成された画像と学習可能な報酬関数の整合が図られている。
既存のアプローチは、RL駆動最適化のマルコフ決定過程としてデノナイジングを再構成する。
本稿では,denoisingのステップにまたがる高密度報酬を動的に分散する信用割当フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-25T15:43:54Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking [50.325021634589596]
拡散モデルと人間の嗜好を整合させるためのTalored Optimization Preference(TailorPO)フレームワークを提案する。
提案手法は,ステップワイド報酬に基づいて,中間雑音のサンプルを直接ランク付けし,勾配方向の問題を効果的に解決する。
実験結果から,本手法は審美的,人為的な画像生成能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-02-01T16:08:43Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Zero-Reference Lighting Estimation Diffusion Model for Low-Light Image Enhancement [2.9873893715462185]
ゼロLEDと呼ばれる低照度画像強調のための新しいゼロ参照光推定拡散モデルを提案する。
拡散モデルの安定収束能力を利用して、低照度領域と実常照度領域の間のギャップを埋める。
ゼロ参照学習を通じてペアのトレーニングデータへの依存を緩和する。
論文 参考訳(メタデータ) (2024-03-05T11:39:17Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。