論文の概要: D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples
- arxiv url: http://arxiv.org/abs/2505.22002v1
- Date: Wed, 28 May 2025 06:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.434978
- Title: D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples
- Title(参考訳): D-Fusion:視覚的に一貫性のあるサンプルを持つ拡散モデルの直接選好最適化
- Authors: Zijing Hu, Fengda Zhang, Kun Kuang,
- Abstract要約: 本稿では,DPO学習可能な視覚的一貫したサンプルを構築する手法であるD-Fusionを紹介する。
一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。
一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
- 参考スコア(独自算出の注目度): 23.92307798902212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The practical applications of diffusion models have been limited by the misalignment between generated images and corresponding text prompts. Recent studies have introduced direct preference optimization (DPO) to enhance the alignment of these models. However, the effectiveness of DPO is constrained by the issue of visual inconsistency, where the significant visual disparity between well-aligned and poorly-aligned images prevents diffusion models from identifying which factors contribute positively to alignment during fine-tuning. To address this issue, this paper introduces D-Fusion, a method to construct DPO-trainable visually consistent samples. On one hand, by performing mask-guided self-attention fusion, the resulting images are not only well-aligned, but also visually consistent with given poorly-aligned images. On the other hand, D-Fusion can retain the denoising trajectories of the resulting images, which are essential for DPO training. Extensive experiments demonstrate the effectiveness of D-Fusion in improving prompt-image alignment when applied to different reinforcement learning algorithms.
- Abstract(参考訳): 拡散モデルの実用的応用は、生成した画像と対応するテキストプロンプトのミスアライメントによって制限されている。
近年の研究では、これらのモデルのアライメントを強化するために、直接選好最適化(DPO)を導入している。
しかし、DPOの有効性は、よく整合した画像と不整合な画像との視覚的相違が、微調整中にどの因子がアライメントに正の寄与するかを拡散モデルが特定できないという、視覚的不整合の問題によって制約される。
そこで本研究ではD-Fusionという,DPOで学習可能な視覚的一貫したサンプルを構築する手法を提案する。
一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。
一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
各種強化学習アルゴリズムに適用した場合,D-Fusionの有効性を示す実験を行った。
関連論文リスト
- Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。
本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。
ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文 参考訳(メタデータ) (2025-04-15T17:37:50Z) - Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。
このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。
様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文 参考訳(メタデータ) (2023-08-28T08:47:06Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。
本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。
本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文 参考訳(メタデータ) (2023-05-22T17:57:41Z) - Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。
そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-06T11:51:28Z) - Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。
暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。
目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文 参考訳(メタデータ) (2022-12-04T10:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。