論文の概要: Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing
- arxiv url: http://arxiv.org/abs/2508.07519v1
- Date: Mon, 11 Aug 2025 00:40:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.89543
- Title: Exploring Multimodal Diffusion Transformers for Enhanced Prompt-based Image Editing
- Title(参考訳): プロンプトを用いた画像編集のための多モード拡散変換器の探索
- Authors: Joonghyuk Shin, Alchan Hwang, Yujin Kim, Daneul Kim, Jaesik Park,
- Abstract要約: トランスフォーマーベースの拡散モデルは最近、従来のU-Netアーキテクチャに取って代わった。
MMDiTは、単一のフルアテンション操作を行う統一アテンション機構を導入する。
本稿では,グローバルからローカルへの編集をサポートするMM-DiTのための,堅牢でプロンプトベースの画像編集手法を提案する。
- 参考スコア(独自算出の注目度): 21.859022356706838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based diffusion models have recently superseded traditional U-Net architectures, with multimodal diffusion transformers (MM-DiT) emerging as the dominant approach in state-of-the-art models like Stable Diffusion 3 and Flux.1. Previous approaches have relied on unidirectional cross-attention mechanisms, with information flowing from text embeddings to image latents. In contrast, MMDiT introduces a unified attention mechanism that concatenates input projections from both modalities and performs a single full attention operation, allowing bidirectional information flow between text and image branches. This architectural shift presents significant challenges for existing editing techniques. In this paper, we systematically analyze MM-DiT's attention mechanism by decomposing attention matrices into four distinct blocks, revealing their inherent characteristics. Through these analyses, we propose a robust, prompt-based image editing method for MM-DiT that supports global to local edits across various MM-DiT variants, including few-step models. We believe our findings bridge the gap between existing U-Net-based methods and emerging architectures, offering deeper insights into MMDiT's behavioral patterns.
- Abstract(参考訳): トランスフォーマーベースの拡散モデルは最近、従来のU-Netアーキテクチャに取って代わり、マルチモーダル拡散トランスフォーマー(MM-DiT)が安定拡散3やFlux.1のような最先端のモデルにおいて支配的なアプローチとして登場した。
従来のアプローチでは、テキスト埋め込みからイメージラテントへの情報の流れが一方向のクロスアテンション機構に依存していた。
対照的に、MMDiTは、両方のモードから入力射影を結合し、1つのフルアテンション操作を実行する統一されたアテンション機構を導入し、テキストとイメージブランチ間の双方向情報フローを可能にする。
このアーキテクチャシフトは、既存の編集技術に重大な課題をもたらす。
本稿では,注意行列を4つのブロックに分解することで,MM-DiTの注意機構を体系的に解析し,その特性を明らかにする。
そこで本研究では,MM-DiTの多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種・多種多種多種多種・多種多種多種多種多種多種・多種多種多種・多種多種多種多種多種・多種多種多種多種多種多種多種・多種多種多種多種多種多種・多種多種多種多種多種多種多種多種多種多種・多種多種多種多種多種多種多種多種多種
我々は、既存のU-Netベースの手法と新しいアーキテクチャのギャップを埋め、MMDiTの行動パターンに関する深い洞察を提供すると信じている。
関連論文リスト
- DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。
画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。
EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2025-05-08T13:03:07Z) - Mask Approximation Net: A Novel Diffusion Model Approach for Remote Sensing Change Captioning [14.994719390886774]
リモートセンシング画像変化記述は、リモートセンシング処理の領域における革新的なマルチモーダルタスクを表す。
本稿では,周波数領域雑音フィルタリングにより強化された拡散モデルを用いたデータ分散学習へ移行するパラダイムを提案する。
本稿では,リモートセンシングによる変化検出と記述のための提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-12-26T11:35:57Z) - EditScout: Locating Forged Regions from Diffusion-based Edited Images with Multimodal LLM [50.054404519821745]
本稿では,多モーダル大規模言語モデルを統合した新しいフレームワークを提案する。
我々のフレームワークはMagicBrush、AutoSplice、PerfBrushデータセットの有望な結果を達成する。
特に,本手法は,これまで目に見えなかった種類の編集を特徴とする自己構築型テストセットであるPerfBrushデータセットを最適化する。
論文 参考訳(メタデータ) (2024-12-05T02:05:33Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。
MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。
一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文 参考訳(メタデータ) (2024-03-22T09:32:31Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。