論文の概要: Lazy Diffusion Transformer for Interactive Image Editing
- arxiv url: http://arxiv.org/abs/2404.12382v1
- Date: Thu, 18 Apr 2024 17:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 18:42:29.765355
- Title: Lazy Diffusion Transformer for Interactive Image Editing
- Title(参考訳): インタラクティブ画像編集のための遅延拡散変換器
- Authors: Yotam Nitzan, Zongze Wu, Richard Zhang, Eli Shechtman, Daniel Cohen-Or, Taesung Park, Michaël Gharbi,
- Abstract要約: 部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,ユーザが局所的な画像修正のシーケンスを指定するインタラクティブな画像編集アプリケーションを対象としている。
- 参考スコア(独自算出の注目度): 79.75128130739598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel diffusion transformer, LazyDiffusion, that generates partial image updates efficiently. Our approach targets interactive image editing applications in which, starting from a blank canvas or an image, a user specifies a sequence of localized image modifications using binary masks and text prompts. Our generator operates in two phases. First, a context encoder processes the current canvas and user mask to produce a compact global context tailored to the region to generate. Second, conditioned on this context, a diffusion-based transformer decoder synthesizes the masked pixels in a "lazy" fashion, i.e., it only generates the masked region. This contrasts with previous works that either regenerate the full canvas, wasting time and computation, or confine processing to a tight rectangular crop around the mask, ignoring the global image context altogether. Our decoder's runtime scales with the mask size, which is typically small, while our encoder introduces negligible overhead. We demonstrate that our approach is competitive with state-of-the-art inpainting methods in terms of quality and fidelity while providing a 10x speedup for typical user interactions, where the editing mask represents 10% of the image.
- Abstract(参考訳): 部分的な画像更新を効率的に生成する新しい拡散変換器であるLazyDiffusionを導入する。
提案手法は,空白キャンバスや画像から,二項マスクやテキストプロンプトを用いた局所的な画像修正のシーケンスをユーザが指定する,インタラクティブな画像編集アプリケーションを対象としている。
私たちの発電機は2つのフェーズで動作します。
まず、コンテキストエンコーダが現在のキャンバスとユーザマスクを処理して、その領域に合わせて調整されたコンパクトなグローバルコンテキストを生成する。
第二に、拡散型トランスフォーマーデコーダは「怠け者」な方法でマスクされたピクセルを合成する。
これは、全キャンバスを再生したり、時間の浪費や計算をしたり、マスクの周りの狭い長方形の作物に処理を限定したり、グローバルなイメージコンテキストを完全に無視する以前の作品とは対照的である。
私たちのデコーダのランタイムはマスクサイズでスケールし、通常は小さくなりますが、エンコーダは無視可能なオーバーヘッドを導入しています。
提案手法は,画像の10%を編集マスクが表現する典型的なユーザインタラクションの10倍の高速化を実現しつつ,品質と忠実性の観点から,最先端の塗装手法と競合することを示す。
関連論文リスト
- SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing [19.245228801339007]
唇の動きとイメージテクスチャを分離するSegTalkerという新しいフレームワークを提案する。
我々はマスク誘導エンコーダを用いて画像の意味領域をスタイルコードに切り離す。
最終的に、以前に生成された音声セグメントとスタイルコードをマスク誘導型StyleGANに注入し、ビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-09-05T15:11:40Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - MaskSketch: Unpaired Structure-guided Masked Image Generation [56.88038469743742]
MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
論文 参考訳(メタデータ) (2023-02-10T20:27:02Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Iterative Facial Image Inpainting using Cyclic Reverse Generator [0.913755431537592]
Cyclic Reverse Generator (CRG)アーキテクチャはエンコーダジェネレータモデルを提供する。
提案モデルを用いて実写画像を生成するには,数回の反復しか十分でないことを実証的に観察した。
本手法では,様々なマスクタイプを用いてスケッチベースのインペインティングを適用でき,多種多様な結果が得られる。
論文 参考訳(メタデータ) (2021-01-18T12:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。