論文の概要: Di3PO -- Diptych Diffusion DPO for Targeted Improvements in Image
- arxiv url: http://arxiv.org/abs/2602.06355v1
- Date: Fri, 06 Feb 2026 03:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.217025
- Title: Di3PO -- Diptych Diffusion DPO for Targeted Improvements in Image
- Title(参考訳): Di3PO -- 画像改善のためのディップチ拡散DPO
- Authors: Sanjana Reddy, Ishaan Malhi, Sally Ma, Praneet Dutta,
- Abstract要約: T2I拡散モデルにおいて「Di3PO」は正対と負対を構成する新しい手法である。
拡散モデルにおけるテキストレンダリングの難しい課題に適用することで,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.692684861981944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for preference tuning of text-to-image (T2I) diffusion models often rely on computationally expensive generation steps to create positive and negative pairs of images. These approaches frequently yield training pairs that either lack meaningful differences, are expensive to sample and filter, or exhibit significant variance in irrelevant pixel regions, thereby degrading training efficiency. To address these limitations, we introduce "Di3PO", a novel method for constructing positive and negative pairs that isolates specific regions targeted for improvement during preference tuning, while keeping the surrounding context in the image stable. We demonstrate the efficacy of our approach by applying it to the challenging task of text rendering in diffusion models, showcasing improvements over baseline methods of SFT and DPO.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルの既存の選好調整法は、正と負の対のイメージを生成するために計算コストの高い生成ステップに依存することが多い。
これらのアプローチは、有意義な差異を欠いたトレーニングペアをしばしば得るが、サンプリングとフィルタリングに費用がかかるか、無関係なピクセル領域で大きなばらつきを示すため、トレーニング効率が低下する。
このような制約に対処するため,画像中の環境を安定に保ちつつ,嗜好調整中の改善を目的とした特定領域を分離する,正と負のペアを構築する新しい手法であるDi3POを紹介した。
拡散モデルにおけるテキストレンダリングの課題に対して,本手法を適用し,SFTおよびDPOのベースライン手法よりも改善したことを示す。
関連論文リスト
- Fine-Tuning Diffusion Models via Intermediate Distribution Shaping [33.26998978897412]
政策勾配法は自己回帰生成の文脈で広く用いられている。
我々は,GRAFTが暗黙的にリフォーム報酬でPPOを行うことを示す。
次に、P-GRAFTを導入し、中間雑音レベルで分布を形作る。
そこで我々は,明示的な報奨を生かさずに,フローモデルを改善する逆ノイズ補正を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:18:47Z) - D-Fusion: Direct Preference Optimization for Aligning Diffusion Models with Visually Consistent Samples [23.92307798902212]
本稿では,DPO学習可能な視覚的一貫したサンプルを構築する手法であるD-Fusionを紹介する。
一方、マスクガイドによる自己注意融合を行うことで、得られた画像は正常に整合するだけでなく、与えられた不整合画像と視覚的に整合する。
一方、D-FusionはDPO訓練に欠かせない画像のノイズの軌跡を保持することができる。
論文 参考訳(メタデータ) (2025-05-28T06:03:41Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Diffusing Differentiable Representations [60.72992910766525]
本稿では,事前学習した拡散モデルを用いて,微分可能な表現(拡散)をサンプリングする,新しい学習自由な手法を提案する。
差分によって引き起こされるサンプルに対する暗黙の制約を特定し、この制約に対処することで、生成されたオブジェクトの一貫性と詳細が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-12-09T20:42:58Z) - Supercharged One-step Text-to-Image Diffusion Models with Negative Prompts [19.609393551644562]
負のプロンプトを1段階拡散モデルに統合する効率的な方法である textbfNegative-textbfAway textbfSteer textbfAttention (NASA) を導入する。
NASAは、望ましくない視覚特性を抑えるためにクロスアテンション機構を活用することで、中間表現空間内で運用している。
論文 参考訳(メタデータ) (2024-12-03T18:56:32Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。