論文の概要: MADI: Masking-Augmented Diffusion with Inference-Time Scaling for Visual Editing
- arxiv url: http://arxiv.org/abs/2507.13401v1
- Date: Wed, 16 Jul 2025 20:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.076229
- Title: MADI: Masking-Augmented Diffusion with Inference-Time Scaling for Visual Editing
- Title(参考訳): MADI:ビジュアル編集のための推論時間スケーリングによるマスキング拡張拡散
- Authors: Shreya Kadambi, Risheek Garrepalli, Shubhankar Borse, Munawar Hyatt, Fatih Porikli,
- Abstract要約: Masking-Augmented Diffusion with Inference-Time Scaling (MADI)は、拡散モデルの編集性、構成性、制御性を改善するフレームワークである。
まず, 二重汚職プロセスを用いた新しいトレーニング戦略であるMasking-Augmented Gaussian Diffusion (MAgD)を紹介する。
第二に,Pause Tokensに基づく推論時キャパシティスケーリング機構を導入し,推論時に計算キャパシティを増大させるプロンプトに挿入される特別なプレースホルダーとして機能する。
- 参考スコア(独自算出の注目度): 41.6713004141353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable success of diffusion models in text-to-image generation, their effectiveness in grounded visual editing and compositional control remains challenging. Motivated by advances in self-supervised learning and in-context generative modeling, we propose a series of simple yet powerful design choices that significantly enhance diffusion model capacity for structured, controllable generation and editing. We introduce Masking-Augmented Diffusion with Inference-Time Scaling (MADI), a framework that improves the editability, compositionality and controllability of diffusion models through two core innovations. First, we introduce Masking-Augmented gaussian Diffusion (MAgD), a novel training strategy with dual corruption process which combines standard denoising score matching and masked reconstruction by masking noisy input from forward process. MAgD encourages the model to learn discriminative and compositional visual representations, thus enabling localized and structure-aware editing. Second, we introduce an inference-time capacity scaling mechanism based on Pause Tokens, which act as special placeholders inserted into the prompt for increasing computational capacity at inference time. Our findings show that adopting expressive and dense prompts during training further enhances performance, particularly for MAgD. Together, these contributions in MADI substantially enhance the editability of diffusion models, paving the way toward their integration into more general-purpose, in-context generative diffusion architectures.
- Abstract(参考訳): テキスト・画像生成における拡散モデルの成功にもかかわらず、接地された視覚編集と構成制御の有効性は依然として困難である。
自己教師付き学習とコンテキスト内生成モデリングの進歩により,構造化・制御可能な生成・編集のための拡散モデル容量を大幅に向上させる,シンプルかつ強力な設計選択法が提案されている。
2つのコアイノベーションを通じて拡散モデルの編集性、構成性、制御性を改善するフレームワークであるMADI(Masking-Augmented Diffusion with Inference-Time Scaling)を紹介する。
まず,モーキング強化ガウス拡散(MAgD)を導入し,前処理からのノイズ入力をマスキングすることで,標準的なデノナイジングスコアマッチングとマスマスキング再構成を組み合わせた新しいトレーニング戦略を提案する。
MAgDはモデルに識別的および構成的視覚表現の学習を奨励し、局所的および構造的認識の編集を可能にする。
第二に,Pause Tokensに基づく推論時キャパシティスケーリング機構を導入し,推論時に計算キャパシティを増大させるプロンプトに挿入される特別なプレースホルダーとして機能する。
以上の結果から,特にMAgDでは,訓練中に表現的かつ高密度なプロンプトが適用され,パフォーマンスがさらに向上することが示唆された。
MADIにおけるこれらの貢献は拡散モデルの編集可能性を大幅に向上させ、より汎用的でコンテキスト内生成拡散アーキテクチャへの統合への道を開いた。
関連論文リスト
- Variational Autoencoding Discrete Diffusion with Enhanced Dimensional Correlations Modeling [48.96034602889216]
Variencoding Discrete Diffusion (VADD) は、潜在変数モデリングによる離散拡散を強化する新しいフレームワークである。
補助的認識モデルを導入することにより、VADDはトレーニングセット上の変分下界と償却推論を介して安定したトレーニングを可能にする。
2Dトイデータ、画素レベルの画像生成、テキスト生成に関する実証結果は、VADDがMDMベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-05-23T01:45:47Z) - Unlocking the Potential of Text-to-Image Diffusion with PAC-Bayesian Theory [33.78620829249978]
テキスト・ツー・イメージ(T2I)拡散モデルは、高忠実で多彩で視覚的にリアルな画像を生成することによって、生成モデルに革命をもたらした。
最近の注目度に基づく手法は、オブジェクトの包摂性や言語的バインディングを改善してきたが、それでも属性のミスバインディングのような課題に直面している。
そこで,ベイズ的手法を用いて,所望のプロパティを強制するために,注意分布を優先したカスタムプライドを設計する手法を提案する。
本手法では,アテンション機構を解釈可能なコンポーネントとして扱い,微粒化制御と属性オブジェクトアライメントの改善を実現している。
論文 参考訳(メタデータ) (2024-11-25T10:57:48Z) - DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-10T17:59:48Z) - Improving Fine-Grained Control via Aggregation of Multiple Diffusion Models [4.703252654452953]
本稿では,多重拡散モデル (AMDM) の微粒化のための新しい学習自由度アルゴリズムを提案する。
AMDMは複数の拡散モデルの機能を特定のモデルに統合し、特定の機能を活性化し、きめ細かい制御を可能にする。
実験結果から,AMDMはトレーニングなしで微粒化制御を著しく改善し,その有効性が検証された。
論文 参考訳(メタデータ) (2024-10-02T06:16:06Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。