論文の概要: Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.11554v3
- Date: Thu, 24 Jul 2025 10:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.81366
- Title: Inversion-DPO: Precise and Efficient Post-Training for Diffusion Models
- Title(参考訳): インバージョンDPO:拡散モデルにおける高精度かつ効率的なポストトレーニング
- Authors: Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Guang Yang, Changyuan Yang, Zhiyuan Yang, Lingyun Sun,
- Abstract要約: Inversion-DPOは報酬モデリングを回避するアライメントフレームワークである。
本手法は, 拡散DPOにおいて, 入賞・敗戦からノイズへの決定論的逆転を伴って, 抽出可能な後部サンプリングを行う。
Inversion-DPOをテキスト・画像生成の基本課題と合成画像生成の課題に適用する。
- 参考スコア(独自算出の注目度): 14.976130146925724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in diffusion models (DMs) have been propelled by alignment methods that post-train models to better conform to human preferences. However, these approaches typically require computation-intensive training of a base model and a reward model, which not only incurs substantial computational overhead but may also compromise model accuracy and training efficiency. To address these limitations, we propose Inversion-DPO, a novel alignment framework that circumvents reward modeling by reformulating Direct Preference Optimization (DPO) with DDIM inversion for DMs. Our method conducts intractable posterior sampling in Diffusion-DPO with the deterministic inversion from winning and losing samples to noise and thus derive a new post-training paradigm. This paradigm eliminates the need for auxiliary reward models or inaccurate appromixation, significantly enhancing both precision and efficiency of training. We apply Inversion-DPO to a basic task of text-to-image generation and a challenging task of compositional image generation. Extensive experiments show substantial performance improvements achieved by Inversion-DPO compared to existing post-training methods and highlight the ability of the trained generative models to generate high-fidelity compositionally coherent images. For the post-training of compostitional image geneation, we curate a paired dataset consisting of 11,140 images with complex structural annotations and comprehensive scores, designed to enhance the compositional capabilities of generative models. Inversion-DPO explores a new avenue for efficient, high-precision alignment in diffusion models, advancing their applicability to complex realistic generation tasks. Our code is available at https://github.com/MIGHTYEZ/Inversion-DPO
- Abstract(参考訳): 拡散モデル(DM)の最近の進歩は、人間の嗜好によく適合するように列車後モデルにアライメントする方法によって促進されている。
しかし、これらのアプローチは一般に、ベースモデルと報酬モデルの計算集約的なトレーニングを必要とし、これはかなりの計算オーバーヘッドを引き起こすだけでなく、モデルの精度と訓練効率を損なう可能性がある。
これらの制約に対処するため,DM の DDIM インバージョンによる直接選好最適化 (DPO) を改良し,報酬モデルを回避する新しいアライメントフレームワークである Inversion-DPO を提案する。
提案手法は,Deffusion-DPOにおいて,入賞・敗戦からノイズへの決定論的逆転を伴って抽出可能な後部サンプリングを行い,新たな学習パラダイムを導出する。
このパラダイムは補助報酬モデルや不正確な近似の必要性を排除し、トレーニングの精度と効率を著しく向上させる。
Inversion-DPOをテキスト・画像生成の基本課題と合成画像生成の課題に適用する。
大規模な実験は、既存のポストトレーニング手法と比較して、インバージョンDPOによる大幅な性能向上を示し、高忠実な合成コヒーレントな画像を生成するための訓練された生成モデルの能力を強調している。
合成画像生成のポストトレーニングでは、複雑な構造アノテーションと総合スコアを持つ11,140の画像からなるペアデータセットをキュレートし、生成モデルの合成能力を向上する。
Inversion-DPOは、拡散モデルにおける効率的で高精度なアライメントのための新しい道を探究し、それらの複雑な現実的な生成タスクへの適用性を推し進める。
私たちのコードはhttps://github.com/MIGHTYEZ/Inversion-DPOで利用可能です。
関連論文リスト
- LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [23.886038479359918]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。
本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文 参考訳(メタデータ) (2025-07-01T14:25:09Z) - Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization [97.35427957922714]
任意の時間ステップ蒸留拡散モデルを直接微調整できるPSOアルゴリズムを提案する。
PSOは、現在の時間ステップ蒸留モデルからサンプリングされた追加の参照画像を導入し、トレーニング画像と参照画像との相対的な近縁率を増大させる。
PSOは、オフラインとオンラインのペアワイズ画像データの両方を用いて、蒸留モデルを直接人間の好ましくない世代に適応させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T07:05:16Z) - Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models [33.09663675904689]
データセットプルーニングの観点から,効率的な拡散訓練について検討する。
GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まず、GANで使用されるデータ選択スキームをDMトレーニングに拡張する。
生成性能をさらに向上するため,クラスワイド・リウェイト方式を採用する。
論文 参考訳(メタデータ) (2024-09-27T20:21:19Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。
本稿では、画像復元(IR)の観点からDDMの解釈を確立する。
本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。
われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文 参考訳(メタデータ) (2023-02-20T00:53:33Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。