論文の概要: Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing
- arxiv url: http://arxiv.org/abs/2509.12888v1
- Date: Tue, 16 Sep 2025 09:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.011032
- Title: Runge-Kutta Approximation and Decoupled Attention for Rectified Flow Inversion and Semantic Editing
- Title(参考訳): 正規化フローインバージョンと意味編集のためのRunge-Kutta近似とデカップリングアテンション
- Authors: Weiming Chen, Zhihan Zhu, Yijia Wang, Zhihai He,
- Abstract要約: 微分方程式のルンゲ・クッタ解法に基づく整流モデルの高次インバージョン法を提案する。
本稿では,多モード拡散変換器内でテキストと画像の注意をゆがめる新しいメカニズムであるDecoupled Diffusion Transformer Attention(DDTA)を紹介する。
本手法は,忠実度と編集性の観点から,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 21.585366155855894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Rectified flow (RF) models have recently demonstrated superior generative performance compared to DDIM-based diffusion models. However, in real-world applications, they suffer from two major challenges: (1) low inversion accuracy that hinders the consistency with the source image, and (2) entangled multimodal attention in diffusion transformers, which hinders precise attention control. To address the first challenge, we propose an efficient high-order inversion method for rectified flow models based on the Runge-Kutta solver of differential equations. To tackle the second challenge, we introduce Decoupled Diffusion Transformer Attention (DDTA), a novel mechanism that disentangles text and image attention inside the multimodal diffusion transformers, enabling more precise semantic control. Extensive experiments on image reconstruction and text-guided editing tasks demonstrate that our method achieves state-of-the-art performance in terms of fidelity and editability. Code is available at https://github.com/wmchen/RKSovler_DDTA.
- Abstract(参考訳): 近年, DDIMを用いた拡散モデルと比較して, RFモデルの方が優れた生成性能を示した。
しかし,実世界の応用においては,(1)原画像との整合性を阻害する低反転精度,(2)正確な注意制御を妨げる拡散変圧器の絡み合ったマルチモーダルアテンションという2つの大きな課題に悩まされている。
最初の課題を解決するために,微分方程式のルンゲ・クッタ解法に基づく整流モデルの高次インバージョン法を提案する。
第2の課題に取り組むために,多モード拡散変換器内でテキストや画像の注意をゆがめ,より正確な意味制御を可能にする新しいメカニズムであるDecoupled Diffusion Transformer Attention (DDTA)を導入する。
画像再構成とテキスト誘導編集タスクの広範囲にわたる実験により,本手法は忠実さと編集性の観点から最先端の性能を達成することを示した。
コードはhttps://github.com/wmchen/RKSovler_DDTAで公開されている。
関連論文リスト
- Residual-based Efficient Bidirectional Diffusion Model for Image Dehazing and Haze Generation [17.043633726365233]
現在のディープデヘイズ法は、ヘイズフリー画像とヘイズフリー画像の翻訳能力に欠け、ヘイズ画像からヘイズを除去することのみに焦点を当てている。
本研究では, 残差に基づく効率的な双方向拡散モデル (RBDM) を提案し, 脱ハジングとヘイズ生成の両方の条件分布をモデル化する。
RBDMは,15ステップのサンプリングで,ヘイズフリー画像とヘイズ画像の双方向化を実現することに成功した。
論文 参考訳(メタデータ) (2025-08-15T01:00:15Z) - Single-Step Latent Consistency Model for Remote Sensing Image Super-Resolution [7.920423405957888]
RSISRタスクの効率性と視覚的品質を向上させるために,新しい単一ステップ拡散手法を提案する。
提案したLCMSRは,従来の拡散モデルの反復的なステップを50-1000以上から1ステップに短縮する。
実験の結果, LCMSRは効率と性能のバランスを効果的に保ち, 非拡散モデルに匹敵する推論時間を達成することがわかった。
論文 参考訳(メタデータ) (2025-03-25T09:56:21Z) - EDiT: Efficient Diffusion Transformers with Linear Compressed Attention [11.36660486878447]
Diffusion Transformers (DiTs) はテキストと画像の合成において主要なアーキテクチャとして登場し、高品質でフォトリアリスティックな画像を生成する。
本研究は,従来の DiT や Multimodal DiT の効率ボトルネックを軽減するために,効率的な拡散変圧器 (EDiT) を導入する。
論文 参考訳(メタデータ) (2025-03-20T21:58:45Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations [41.87051958934507]
本稿では, (i) 逆転と (ii) 修正フローモデル(Flux など)を用いた実画像の編集という2つの重要な課題に対処する。
本手法は,ゼロショット・インバージョン・編集における最先端性能を実現し,ストローク・ツー・イメージ合成やセマンティック・イメージ編集における先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-10-14T17:56:24Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。