論文の概要: FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing
- arxiv url: http://arxiv.org/abs/2503.16153v1
- Date: Thu, 20 Mar 2025 13:55:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:53.531589
- Title: FreeFlux: Understanding and Exploiting Layer-Specific Roles in RoPE-Based MMDiT for Versatile Image Editing
- Title(参考訳): FreeFlux: Versatile Image EditingのためのRoPEベースのMMDiTにおけるレイヤ固有の役割の理解と展開
- Authors: Tianyi Wei, Yifan Zhou, Dongdong Chen, Xingang Pan,
- Abstract要約: MMDiT(Multimodal Diffusion Transformer)におけるロータリー位置埋め込み(RoPE)の統合により,テキスト・画像生成の品質が大幅に向上した。
本稿では,RoPEに基づくMMDiTモデルの最初の力学解析を行い,位置情報とコンテンツ依存関係をアンハングリングする自動探索手法を提案する。
編集タスクを、位置依存編集(オブジェクトの追加など)、コンテンツ類似性依存編集(非剛性編集など)、地域保存編集(例)の3種類に分類する。
- 参考スコア(独自算出の注目度): 30.99444221104659
- License:
- Abstract: The integration of Rotary Position Embedding (RoPE) in Multimodal Diffusion Transformer (MMDiT) has significantly enhanced text-to-image generation quality. However, the fundamental reliance of self-attention layers on positional embedding versus query-key similarity during generation remains an intriguing question. We present the first mechanistic analysis of RoPE-based MMDiT models (e.g., FLUX), introducing an automated probing strategy that disentangles positional information versus content dependencies by strategically manipulating RoPE during generation. Our analysis reveals distinct dependency patterns that do not straightforwardly correlate with depth, offering new insights into the layer-specific roles in RoPE-based MMDiT. Based on these findings, we propose a training-free, task-specific image editing framework that categorizes editing tasks into three types: position-dependent editing (e.g., object addition), content similarity-dependent editing (e.g., non-rigid editing), and region-preserved editing (e.g., background replacement). For each type, we design tailored key-value injection strategies based on the characteristics of the editing task. Extensive qualitative and quantitative evaluations demonstrate that our method outperforms state-of-the-art approaches, particularly in preserving original semantic content and achieving seamless modifications.
- Abstract(参考訳): MMDiT(Multimodal Diffusion Transformer)におけるロータリー位置埋め込み(RoPE)の統合により,テキスト・画像生成の品質が大幅に向上した。
しかし、生成中の位置埋め込みとクエリキー類似性に対する自己注意層の基本的依存は、いまだ興味深い問題である。
本稿では, RoPE を用いた MMDiT モデル (FLUX など) の初回力学解析を行い, 生成中に RoPE を戦略的に操作することにより, 位置情報とコンテンツ依存をアンハングリングする自動探索手法を提案する。
解析の結果,深度と直接相関しない依存性パターンが明らかとなり,RoPEベースのMMDiTにおけるレイヤ固有の役割に対する新たな洞察が得られた。
これらの知見に基づいて,編集タスクを位置依存編集(例えば,オブジェクトの追加),コンテンツ類似性依存編集(例えば,非剛性編集),領域保存編集(例えば,バックグラウンド置換)の3つのタイプに分類する,学習不要なタスク固有の画像編集フレームワークを提案する。
各タイプに対して,編集作業の特徴に基づいて,調整されたキー値注入戦略を設計する。
定性的,定量的な評価により,本手法は最先端の手法,特にオリジナルセマンティックな内容の保存やシームレスな修正に優れることを示した。
関連論文リスト
- HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing [54.970275599061594]
我々は階層的・多階層的不整合評価(HMGIE)と呼ばれる適応的評価フレームワークを設計する。
HMGIEは、様々な画像キャプチャー対の精度と完全性の両方をカバーする多粒度評価を提供する。
提案手法の有効性と柔軟性を検証するため,様々なタイプの画像キャプチャー・データセットであるMVTIDを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:47:49Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Deep Content Understanding Toward Entity and Aspect Target Sentiment Analysis on Foundation Models [0.8602553195689513]
Entity-Aspect Sentiment Triplet extract (EASTE)は、Aspect-Based Sentiment Analysisタスクである。
本研究は,EASTEタスクにおける高性能化を目標とし,モデルサイズ,タイプ,適応技術がタスクパフォーマンスに与える影響について検討する。
最終的には、複雑な感情分析における詳細な洞察と最先端の成果を提供する。
論文 参考訳(メタデータ) (2024-07-04T16:48:14Z) - Exploring Text-Guided Single Image Editing for Remote Sensing Images [30.23541304590692]
本稿では,テキスト誘導型RSI編集手法を提案する。
大規模なベンチマークデータセットのトレーニングを必要とせずに、一貫性を維持するために、マルチスケールのトレーニングアプローチを採用している。
論文 参考訳(メタデータ) (2024-05-09T13:45:04Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Repositioning the Subject within Image [78.8467524191102]
本稿では,革新的動的操作タスク,主題再構成を導入する。
このタスクは、画像の忠実性を保ちながら、ユーザが指定した対象を所望の位置に移動させることである。
本研究は, 主観的再配置の基本的なサブタスクを, 統一的, 即効的な塗装作業として効果的に再構築できることを明らかにする。
論文 参考訳(メタデータ) (2024-01-30T10:04:49Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Situational Perception Guided Image Matting [16.1897179939677]
本研究では,マットアノテーションの主観バイアスを緩和する状況認識ガイド画像マッチング(SPG-IM)手法を提案する。
SPG-IMは、オブジェクト間およびオブジェクト間サリエンシをよりよく関連付けることができ、画像マッチングの主観的性質を補うことができる。
論文 参考訳(メタデータ) (2022-04-20T07:35:51Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Semantic Change Detection with Asymmetric Siamese Networks [71.28665116793138]
2つの空中画像が与えられた場合、セマンティックチェンジ検出は、土地被覆のバリエーションを特定し、それらの変化タイプをピクセルワイド境界で識別することを目的としている。
この問題は、正確な都市計画や天然資源管理など、多くの地球ビジョンに関連するタスクにおいて不可欠である。
本研究では, 広く異なる構造を持つモジュールから得られた特徴対を用いて意味変化を同定し, 同定するための非対称システマネットワーク(ASN)を提案する。
論文 参考訳(メタデータ) (2020-10-12T13:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。