論文の概要: Latent Space Editing in Transformer-Based Flow Matching
- arxiv url: http://arxiv.org/abs/2312.10825v1
- Date: Sun, 17 Dec 2023 21:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:22:01.853700
- Title: Latent Space Editing in Transformer-Based Flow Matching
- Title(参考訳): 変圧器を用いた流れマッチングにおける潜時空間編集
- Authors: Vincent Tao Hu, David W Zhang, Pascal Mettes, Meng Tang, Deli Zhao,
Cees G.M. Snoek
- Abstract要約: Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
- 参考スコア(独自算出の注目度): 53.75073756305241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper strives for image editing via generative models. Flow Matching is
an emerging generative modeling technique that offers the advantage of simple
and efficient training. Simultaneously, a new transformer-based U-ViT has
recently been proposed to replace the commonly used UNet for better scalability
and performance in generative modeling. Hence, Flow Matching with a transformer
backbone offers the potential for scalable and high-quality generative
modeling, but their latent structure and editing ability are as of yet unknown.
Hence, we adopt this setting and explore how to edit images through latent
space manipulation. We introduce an editing space, which we call $u$-space,
that can be manipulated in a controllable, accumulative, and composable manner.
Additionally, we propose a tailored sampling solution to enable sampling with
the more efficient adaptive step-size ODE solvers. Lastly, we put forth a
straightforward yet powerful method for achieving fine-grained and nuanced
editing using text prompts. Our framework is simple and efficient, all while
being highly effective at editing images while preserving the essence of the
original content. Our code will be publicly available at https://taohu.me/lfm/
- Abstract(参考訳): 本稿では,生成モデルによる画像編集について検討する。
Flow Matchingは、シンプルで効率的なトレーニングの利点を提供する、新たな生成モデリング技術である。
同時に、新しいトランスフォーマーベースのu-vitが、ジェネレーティブモデリングのスケーラビリティとパフォーマンスを改善するために、一般的に使用されるunetを置き換えるために提案されている。
したがって、Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めているが、その潜在構造と編集能力はまだ不明である。
そこで我々は,この設定を採用し,潜在空間操作による画像編集方法について検討する。
編集スペースは$u$-spaceと呼ばれ、制御可能で、蓄積可能で、構成可能な方法で操作できる。
さらに,より効率的で適応的なステップサイズ ode ソルバを用いたサンプリングを可能にするための最適化サンプリングソリューションを提案する。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
私たちのフレームワークはシンプルで効率的ですが、オリジナルコンテンツの本質を保ちながら、画像の編集に非常に効果的です。
私たちのコードはhttps://taohu.me/lfm/で公開されます。
関連論文リスト
- Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks [5.9189325968909365]
本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
論文 参考訳(メタデータ) (2023-12-21T02:39:53Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。