論文の概要: DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
- arxiv url: http://arxiv.org/abs/2410.08207v2
- Date: Mon, 31 Mar 2025 15:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:56.69621
- Title: DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models
- Title(参考訳): DICE:多項拡散とマスケ生成モデルのための離散インバージョン生成制御可能編集
- Authors: Xiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas,
- Abstract要約: DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
- 参考スコア(独自算出の注目度): 79.0135981840682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces.
- Abstract(参考訳): 離散拡散モデルは、画像生成やマスキング言語モデリングといったタスクで成功しているが、制御されたコンテンツ編集において制限に直面している。
DICE(Discrete Inversion for Controllable Editing)は,多項拡散やマスキング生成モデルを含む離散拡散モデルの正確な逆変換を可能にする最初の手法である。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは予め定義されたマスクや注意操作を必要とせずに、離散データの正確な再構成と柔軟な編集を可能にする。
本稿では,VQ-Diffusion,Paella,RoBERTaなどのモデルを用いて,画像領域とテキスト領域のDICEの有効性を実証する。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models [4.703252654452953]
本稿では,AMDM(Aggregation of Multiple Diffusion Models)という新しいアルゴリズムを提案する。
AMDMは複数の拡散モデルから特定のモデルに特徴を合成し、きめ細かい制御のために特定の特徴を活性化する。
実験結果から,AMDMはトレーニング無しで微粒化制御を著しく改善し,その効果が証明された。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks [43.079272743475435]
本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。
特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。
DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:25:54Z) - DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing [14.537856326925178]
我々は、生成的顔画像編集のきめ細かい制御の探索に焦点をあてる。
本稿では,DisControlFaceという,拡散に基づく新しい編集フレームワークを提案する。
我々のモデルは、3Dやビデオデータを必要とすることなく、2Dインザワイルドなポートレート画像を用いて訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T08:16:55Z) - Self-correcting LLM-controlled Diffusion Models [83.26605445217334]
自己補正LPM制御拡散(SLD)を導入する
SLDは、入力プロンプトから画像を生成し、プロンプトとアライメントを評価し、生成した画像の不正確性に対して自己補正を行うフレームワークである。
提案手法は, 生成数, 属性結合, 空間的関係において, 不正確な世代の大部分を補正することができる。
論文 参考訳(メタデータ) (2023-11-27T18:56:37Z) - DiffGANPaint: Fast Inpainting Using Denoising Diffusion GANs [19.690288425689328]
本稿では,不足画素を高速に充填できるDDPMモデルを提案する。
汎用画像インパインティングデータセットの実験は、我々のアプローチが現代のほとんどの作品に匹敵する、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:50:41Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - DiffUTE: Universal Text Editing Diffusion Model [32.384236053455]
汎用的な自己教師型テキスト編集拡散モデル(DiffUTE)を提案する。
それは、その現実的な外観を維持しながら、ソースイメージ内の単語を別の単語に置き換えたり、修正したりすることを目的としている。
提案手法は印象的な性能を実現し,高忠実度画像の編集を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:06:01Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。