Fugu-MT 論文翻訳(概要): D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

論文の概要: D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples

arxiv url: http://arxiv.org/abs/2505.22002v1
Date: Wed, 28 May 2025 06:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:50.434978
Title: D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples
Title（参考訳）: D-Fusion:視覚的に一貫性のあるサンプルを持つ拡散モデルの直接選好最適化
Authors: Zijing Hu, Fengda Zhang, Kun Kuang,
Abstract要約: 本稿では,DPO学習可能な視覚的一貫したサンプルを構築する手法であるD-Fusionを紹介する。一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
参考スコア（独自算出の注目度）: 23.92307798902212
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The practical applications of diffusion models have been limited by the misalignment between generated images and corresponding text prompts. Recent studies have introduced direct preference optimization (DPO) to enhance the alignment of these models. However, the effectiveness of DPO is constrained by the issue of visual inconsistency, where the significant visual disparity between well-aligned and poorly-aligned images prevents diffusion models from identifying which factors contribute positively to alignment during fine-tuning. To address this issue, this paper introduces D-Fusion, a method to construct DPO-trainable visually consistent samples. On one hand, by performing mask-guided self-attention fusion, the resulting images are not only well-aligned, but also visually consistent with given poorly-aligned images. On the other hand, D-Fusion can retain the denoising trajectories of the resulting images, which are essential for DPO training. Extensive experiments demonstrate the effectiveness of D-Fusion in improving prompt-image alignment when applied to different reinforcement learning algorithms.
Abstract（参考訳）: 拡散モデルの実用的応用は、生成した画像と対応するテキストプロンプトのミスアライメントによって制限されている。近年の研究では、これらのモデルのアライメントを強化するために、直接選好最適化(DPO)を導入している。しかし、DPOの有効性は、よく整合した画像と不整合な画像との視覚的相違が、微調整中にどの因子がアライメントに正の寄与するかを拡散モデルが特定できないという、視覚的不整合の問題によって制約される。そこで本研究ではD-Fusionという,DPOで学習可能な視覚的一貫したサンプルを構築する手法を提案する。一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。各種強化学習アルゴリズムに適用した場合,D-Fusionの有効性を示す実験を行った。

関連論文リスト

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文参考訳（メタデータ） (2026-03-05T04:45:49Z)
DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis [63.59932602411222]
DMAlignerは、アライメント指向ビュー合成による画像アライメントのための拡散ベースのフレームワークである。条件付き画像生成学習のためのダイナミクス対応拡散訓練手法を提案する。我々は,Blenderを用いたダイナミックシーン画像アライメント(DSIA)データセットを開発した。
論文参考訳（メタデータ） (2026-02-26T14:00:07Z)
Plug-and-play Diffusion Models for Image Compressive Sensing with Data Consistency Projection [11.296566218142521]
プラグイン・アンド・プレイ(プレイ)法とインプリシット・インプリシット・モデル(DDIM)の関連性について検討する。我々は、学習した事前を物理フォワードモデルと原則的に統合する統一的なフレームワークを提供する。
論文参考訳（メタデータ） (2025-09-11T11:30:31Z)
Prototype-Guided Diffusion: Visual Conditioning without External Memory [2.1155908599769764]
プロトタイプ拡散モデルでは、外部メモリなしで効率的な視覚条件付けを行うために、プロトタイプ学習を直接拡散プロセスに統合する。 PDMは、計算とストレージのオーバーヘッドを低減しつつ、高速な品質を維持し、拡散モデルにおける検索ベースの条件付けに代わるスケーラブルな代替手段を提供する。
論文参考訳（メタデータ） (2025-08-13T16:18:35Z)
Mind the Gap: Aligning Vision Foundation Models to Image Feature Matching [31.42132290162457]
IMD (Image Feature Matching with a Pre-trained Diffusion model) と呼ばれる新しいフレームワークを2つのパーツで導入する。グローバルセマンティクスを重視したコントラッシブラーニングに基づく基礎モデルを用いた支配的なソリューションとは異なり、生成的拡散モデルを統合する。提案したIMMは,評価されたベンチマークにおいて新たな最先端性を確立し,IMIMの優れた12%の改善は,この手法の誤認識を効果的に軽減することを示す。
論文参考訳（メタデータ） (2025-07-14T14:28:15Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。 ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文参考訳（メタデータ） (2025-04-15T17:37:50Z)
Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文参考訳（メタデータ） (2024-03-25T15:58:26Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Steerable Conditional Diffusion for Out-of-Distribution Adaptation in Medical Image Reconstruction [75.91471250967703]
我々は、ステアブル条件拡散と呼ばれる新しいサンプリングフレームワークを導入する。このフレームワークは、利用可能な測定によって提供される情報のみに基づいて、画像再構成と並行して拡散モデルを適用する。様々な画像モダリティにまたがるアウト・オブ・ディストリビューション性能の大幅な向上を実現した。
論文参考訳（メタデータ） (2023-08-28T08:47:06Z)
SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。 SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文参考訳（メタデータ） (2023-08-04T06:21:57Z)
Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。 FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文参考訳（メタデータ） (2023-08-02T13:43:03Z)
Training Diffusion Models with Reinforcement Learning [82.29328477109826]
拡散モデルは、ログのような目的に近似して訓練される。本稿では,下流目的のための拡散モデルを直接最適化するための強化学習手法について検討する。本稿では,多段階決定問題としてデノベーションを行うことによって,ポリシー勾配アルゴリズムのクラスを実現する方法について述べる。
論文参考訳（メタデータ） (2023-05-22T17:57:41Z)
Masked Images Are Counterfactual Samples for Robust Fine-tuning [77.82348472169335]
微調整の深層学習モデルは、分布内(ID)性能と分布外(OOD)堅牢性の間のトレードオフにつながる可能性がある。そこで本研究では,マスク付き画像を対物サンプルとして用いて,ファインチューニングモデルのロバスト性を向上させる新しいファインチューニング手法を提案する。
論文参考訳（メタデータ） (2023-03-06T11:51:28Z)
Multiscale Structure Guided Diffusion for Image Deblurring [24.09642909404091]
拡散確率モデル (DPM) は画像の劣化に用いられている。暗黙のバイアスとして、単純だが効果的なマルチスケール構造ガイダンスを導入する。目に見えないデータのアーティファクトが少ないほど、より堅牢なデブロアリング結果を示します。
論文参考訳（メタデータ） (2022-12-04T10:40:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。