論文の概要: DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing
- arxiv url: http://arxiv.org/abs/2506.01430v1
- Date: Mon, 02 Jun 2025 08:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.105222
- Title: DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing
- Title(参考訳): DNA編集:テキストガイドによる定型フロー編集のための直接ノイズアライメント
- Authors: Chenxi Xie, Minghan Li, Shuai Li, Yuhui Wu, Qiaosi Yi, Lei Zhang,
- Abstract要約: ノイズ領域のガウス雑音を改良するために, 直接雑音アライメント(DNA)を提案する。
また、ターゲットのプロンプト誘導生成過程を制御するための移動速度誘導(MVG)も導入する。
DNAEditは、最先端のテキストガイド編集方法よりも優れたパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 20.926235170077298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the powerful generation capability of large-scale pretrained text-to-image models, training-free methods have demonstrated impressive image editing results. Conventional diffusion-based methods, as well as recent rectified flow (RF)-based methods, typically reverse synthesis trajectories by gradually adding noise to clean images, during which the noisy latent at the current timestep is used to approximate that at the next timesteps, introducing accumulated drift and degrading reconstruction accuracy. Considering the fact that in RF the noisy latent is estimated through direct interpolation between Gaussian noises and clean images at each timestep, we propose Direct Noise Alignment (DNA), which directly refines the desired Gaussian noise in the noise domain, significantly reducing the error accumulation in previous methods. Specifically, DNA estimates the velocity field of the interpolated noised latent at each timestep and adjusts the Gaussian noise by computing the difference between the predicted and expected velocity field. We validate the effectiveness of DNA and reveal its relationship with existing RF-based inversion methods. Additionally, we introduce a Mobile Velocity Guidance (MVG) to control the target prompt-guided generation process, balancing image background preservation and target object editability. DNA and MVG collectively constitute our proposed method, namely DNAEdit. Finally, we introduce DNA-Bench, a long-prompt benchmark, to evaluate the performance of advanced image editing models. Experimental results demonstrate that our DNAEdit achieves superior performance to state-of-the-art text-guided editing methods. Codes and benchmark will be available at \href{ https://xiechenxi99.github.io/DNAEdit/}{https://xiechenxi99.github.io/DNAEdit/}.
- Abstract(参考訳): 大規模な事前訓練されたテキスト・ツー・イメージモデルの強力な生成能力を活用して、トレーニングなしの手法は印象的な画像編集結果を示した。
従来の拡散に基づく手法と同様に、最近の整流流(RF)に基づく手法と同様に、一般的には、クリーン画像にノイズを徐々に加えることによって、逆合成軌道を逆転させ、その間、現在のタイミングでノイズの強い潜伏剤を用いて次のタイミングでそれを近似し、蓄積したドリフトを導入し、再構成精度を劣化させる。
RFではガウス雑音とクリーン画像との直接補間により雑音の遅延が推定されるので,ノイズ領域のガウス雑音を直接改善し,従来手法の誤差蓄積を著しく低減するダイレクトノイズアライメント(DNA)を提案する。
具体的には、各時間ステップで補間された遅延音の速度場を推定し、予測された速度場と予測される速度場との差を計算することでガウス雑音を調整する。
我々は,DNAの有効性を検証し,既存のRFベースの逆転法との関係を明らかにする。
さらに、画像の背景保存と対象オブジェクトの編集性とのバランスを保ちながら、ターゲットのプロンプト誘導生成プロセスを制御するための移動速度誘導(MVG)を導入する。
DNAとMVGは総称して提案手法であるDNAEditを構成する。
最後に,DNA-Benchを用いて画像編集モデルの性能評価を行う。
実験結果から,我々のDNA編集は最先端のテキストガイド編集法よりも優れた性能を発揮することが示された。
コードとベンチマークは \href{ https://xiechenxi99.github.io/DNAEdit/}{https://xiechenxi99.github.io/DNAEdit/} で公開される。
関連論文リスト
- Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - Geodesic Diffusion Models for Medical Image-to-Image Generation [8.929849404539999]
拡散モデルは、ノイズを加えることによって未知のデータ分布をガウスに変換する。
その後、デノイザーはこの過程を逆転させ、ランダムなガウスノイズから高品質なサンプルを生成する。
標準拡散モデルは、確率空間における測地経路を保証しない。
本稿では,分散拡散型ノイズスケジューラを用いた測地線経路をフィッシャー・ラオ計量の下で定義する測地線拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-03-02T05:57:51Z) - Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration [64.84134880709625]
拡散モデルを用いて,雑音空間を介して領域適応を行うことが可能であることを示す。
特に、補助的な条件入力が多段階の復調過程にどのように影響するかというユニークな性質を活用することにより、有意義な拡散損失を導出する。
拡散モデルにおけるチャネルシャッフル層や残留スワッピング型コントラスト学習などの重要な戦略を提案する。
論文 参考訳(メタデータ) (2024-06-26T17:40:30Z) - Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。
本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。
本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T07:24:54Z) - Resfusion: Denoising Diffusion Probabilistic Models for Image Restoration Based on Prior Residual Noise [34.65659277870287]
微分拡散モデルの研究は、画像復元の分野への応用を拡大した。
本稿では,残余項を拡散前進過程に組み込むフレームワークであるResfusionを提案する。
Resfusionは, ISTDデータセット, LOLデータセット, Raindropデータセットに対して, わずか5つのサンプリングステップで競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-11-25T02:09:38Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - DiffusionAD: Norm-guided One-step Denoising Diffusion for Anomaly Detection [80.20339155618612]
DiffusionADは、再構成サブネットワークとセグメンテーションサブネットワークからなる、新しい異常検出パイプラインである。
高速なワンステップデノゲーションパラダイムは、同等の再現品質を維持しながら、数百倍の加速を達成する。
異常の出現の多様性を考慮し、複数のノイズスケールの利点を統合するためのノルム誘導パラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-15T16:14:06Z) - Speckles-Training-Based Denoising Convolutional Neural Network Ghost
Imaging [5.737427318960774]
DnCNN(Denoising Convolutional Neural Networks)に基づく改良型ゴーストイメージング(GI)手法を提案する。
DnCNNにおける入力(雑音画像)と出力(残留画像)の対応にインスパイアされ、トレーニングを通してスペックルシーケンスと対応するGIの雑音分布のマッピングを構築する。
未知のターゲットを照らすのに同じスペックルシーケンスを使用し、消音ターゲット画像を取得します。
論文 参考訳(メタデータ) (2021-04-07T02:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。