論文の概要: IterInv: Iterative Inversion for Pixel-Level T2I Models
- arxiv url: http://arxiv.org/abs/2310.19540v2
- Date: Mon, 22 Apr 2024 02:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 00:23:13.847715
- Title: IterInv: Iterative Inversion for Pixel-Level T2I Models
- Title(参考訳): IterInv:Pixel-Level T2Iモデルの反復インバージョン
- Authors: Chuanming Tang, Kai Wang, Joost van de Weijer,
- Abstract要約: DDIMインバージョンは、潜在拡散モデル(LDM)に根ざした一般的なプラクティスである
遅延空間で動作する大規模な事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階により詳細が失われる。
我々は,このカテゴリのT2Iモデルのイテレーティブ・インバージョン(IterInv)技術を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
- 参考スコア(独自算出の注目度): 16.230193725587807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models have been a ground-breaking development in generating convincing images following an input text prompt. The goal of image editing research is to give users control over the generated images by modifying the text prompt. Current image editing techniques predominantly hinge on DDIM inversion as a prevalent practice rooted in Latent Diffusion Models (LDM). However, the large pretrained T2I models working on the latent space suffer from losing details due to the first compression stage with an autoencoder mechanism. Instead, other mainstream T2I pipeline working on the pixel level, such as Imagen and DeepFloyd-IF, circumvents the above problem. They are commonly composed of multiple stages, typically starting with a text-to-image stage and followed by several super-resolution stages. In this pipeline, the DDIM inversion fails to find the initial noise and generate the original image given that the super-resolution diffusion models are not compatible with the DDIM technique. According to our experimental findings, iteratively concatenating the noisy image as the condition is the root of this problem. Based on this observation, we develop an iterative inversion (IterInv) technique for this category of T2I models and verify IterInv with the open-source DeepFloyd-IF model.Specifically, IterInv employ NTI as the inversion and reconstruction of low-resolution image generation. In stages 2 and 3, we update the latent variance at each timestep to find the deterministic inversion trace and promote the reconstruction process. By combining our method with a popular image editing method, we prove the application prospects of IterInv. The code will be released upon acceptance. The code is available at \url{https://github.com/Tchuanm/IterInv.git}.
- Abstract(参考訳): 大規模テキスト画像拡散モデルは、入力テキストプロンプトに続く説得力のある画像を生成する上で、画期的な発展を遂げている。
画像編集研究の目的は、ユーザーがテキストプロンプトを変更することによって生成された画像を制御することである。
現在の画像編集技術はDDIMの逆変換を主にラテント拡散モデル(LDM)に根ざした慣行として用いている。
しかし、遅延空間で動作する大きな事前訓練されたT2Iモデルは、オートエンコーダ機構を備えた最初の圧縮段階によって詳細が失われることに悩まされる。
代わりに、ImagenやDeepFloyd-IFといった他の主流のT2Iパイプラインは、上記の問題を回避している。
一般的に複数のステージで構成されており、通常テキストから画像までのステージから始まり、いくつかの超解像度ステージが続く。
このパイプラインでは、DDIMのインバージョンは初期ノイズを見つけることができず、超解像拡散モデルがDDIM技術と互換性がないため、元の画像を生成する。
実験結果によると,ノイズ像を条件として反復的に結合することがこの問題の根源である。
本研究は,T2Iモデルのカテゴリに対するイテレーティブ・インバージョン(IterInv)手法を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
第2段と第3段では,各段階の潜時変動を更新し,決定論的逆転トレースを見つけ,再構成プロセスを促進する。
一般的な画像編集手法と組み合わせることで、IterInvの応用可能性を証明する。
コードは受理時にリリースされます。
コードは \url{https://github.com/Tchuanm/IterInv.git} で公開されている。
関連論文リスト
- Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。
提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。
画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T23:38:12Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Training-free Content Injection using h-space in Diffusion Models [16.51521884698886]
本稿では,生成過程における特徴を組み合わせることで,ある画像の内容を他の画像に注入する手法を提案する。
カスタム拡散アプローチとは異なり、我々の手法は時間を要する最適化や微調整を必要としない。
論文 参考訳(メタデータ) (2023-03-27T17:19:50Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。