Fugu-MT 論文翻訳(概要): DiT4Edit: Diffusion Transformer for Image Editing

論文の概要: DiT4Edit: Diffusion Transformer for Image Editing

arxiv url: http://arxiv.org/abs/2411.03286v2
Date: Thu, 07 Nov 2024 15:07:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.692275
Title: DiT4Edit: Diffusion Transformer for Image Editing
Title（参考訳）: DiT4Edit:画像編集用拡散変換器
Authors: Kunyu Feng, Yue Ma, Bingyuan Wang, Chenyang Qi, Haozhe Chen, Qifeng Chen, Zeyu Wang,
Abstract要約: Diffusion Transformerベースの画像編集フレームワークであるDiT4Editを提案する。 DiT4Editは、DPM-r逆変換アルゴリズムを使用して、反転潜伏子を取得し、UNetベースのフレームワークで一般的に使用されるDDIMアルゴリズムと比較してステップ数を減らした。我々の設計は、特に高解像度で任意のサイズの画像において、画像編集においてUNet構造を超えることができるように、DiTの利点を活用している。
参考スコア（独自算出の注目度）: 44.475144844099134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent advances in UNet-based image editing, methods for shape-aware object editing in high-resolution images are still lacking. Compared to UNet, Diffusion Transformers (DiT) demonstrate superior capabilities to effectively capture the long-range dependencies among patches, leading to higher-quality image generation. In this paper, we propose DiT4Edit, the first Diffusion Transformer-based image editing framework. Specifically, DiT4Edit uses the DPM-Solver inversion algorithm to obtain the inverted latents, reducing the number of steps compared to the DDIM inversion algorithm commonly used in UNet-based frameworks. Additionally, we design unified attention control and patches merging, tailored for transformer computation streams. This integration allows our framework to generate higher-quality edited images faster. Our design leverages the advantages of DiT, enabling it to surpass UNet structures in image editing, especially in high-resolution and arbitrary-size images. Extensive experiments demonstrate the strong performance of DiT4Edit across various editing scenarios, highlighting the potential of Diffusion Transformers in supporting image editing.
Abstract（参考訳）: UNetベースの画像編集の進歩にもかかわらず、高解像度画像における形状認識オブジェクトの編集方法はまだ不足している。 UNetと比較すると、Diffusion Transformers (DiT)はパッチ間の長距離依存関係を効果的にキャプチャする優れた機能を示し、高品質の画像生成を実現している。本稿では,最初のDiffusion Transformerベースの画像編集フレームワークであるDiT4Editを提案する。具体的には、DiT4EditはDPM-Solverインバージョンアルゴリズムを使用して、逆のラテントを取得し、UNetベースのフレームワークで一般的に使用されるDDIMインバージョンアルゴリズムと比較してステップ数を削減している。さらに、コンバータ計算ストリームに適した統合されたアテンション制御とマージパッチを設計する。この統合により、我々のフレームワークは高品質な編集画像を高速に生成できる。我々の設計は、特に高解像度で任意のサイズの画像において、画像編集においてUNet構造を超えることができるように、DiTの利点を活用している。大規模な実験では、様々な編集シナリオでDiT4Editの強力なパフォーマンスを示し、画像編集をサポートするディフュージョントランスフォーマーの可能性を強調している。

関連論文リスト

Towards Efficient Exemplar Based Image Editing with Multimodal VLMs [11.830273909934688]
本研究では,テキストから画像への拡散モデルとマルチモーダルVLMを利用して,既存のペアからコンテンツイメージへ編集を転送する作業に取り組む。エンドツーエンドのパイプラインは最適化不要ですが、実験では、複数のタイプの編集においてベースラインを4倍高速で上回っています。
論文参考訳（メタデータ） (2025-06-25T06:20:36Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文参考訳（メタデータ） (2024-11-07T14:29:02Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
TurboEdit: Instant text-based image editing [32.06820085957286]
我々は,数ステップの拡散モデルを用いて,正確な画像逆転と非交叉画像編集の課題に対処する。本稿では,エンコーダをベースとした反復インバージョン手法を提案する。このインバージョンネットワークは,入力画像と前ステップからの再構成画像に条件付けされており,次の再構成を入力画像に向けて修正することができる。提案手法は, リアルタイムなテキストガイド画像編集を容易にするため, インバージョンでは8つの機能評価 (NFE) と4つのNFE (NFE) しか必要としない。
論文参考訳（メタデータ） (2024-08-14T18:02:24Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文参考訳（メタデータ） (2023-12-17T21:49:59Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文参考訳（メタデータ） (2023-07-02T09:11:09Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。