論文の概要: IterInv: Iterative Inversion for Pixel-Level T2I Models
- arxiv url: http://arxiv.org/abs/2310.19540v1
- Date: Mon, 30 Oct 2023 13:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:07:58.379567
- Title: IterInv: Iterative Inversion for Pixel-Level T2I Models
- Title(参考訳): IterInv:Pixel-Level T2Iモデルの反復インバージョン
- Authors: Chuanming Tang, Kai Wang, Joost van de Weijer
- Abstract要約: 最近の画像編集技術は、LDM(Latent Diffusion Models)に基づくDDIMインバージョンに依存している。
我々は,このT2Iモデルのストリームに対する反復反転(IterInv)を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
- 参考スコア(独自算出の注目度): 18.241111240799846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image diffusion models have been a ground-breaking
development in generating convincing images following an input text prompt. The
goal of image editing research is to give users control over the generated
images by modifying the text prompt. Current image editing techniques are
relying on DDIM inversion as a common practice based on the Latent Diffusion
Models (LDM). However, the large pretrained T2I models working on the latent
space as LDM suffer from losing details due to the first compression stage with
an autoencoder mechanism. Instead, another mainstream T2I pipeline working on
the pixel level, such as Imagen and DeepFloyd-IF, avoids this problem. They are
commonly composed of several stages, normally with a text-to-image stage
followed by several super-resolution stages. In this case, the DDIM inversion
is unable to find the initial noise to generate the original image given that
the super-resolution diffusion models are not compatible with the DDIM
technique. According to our experimental findings, iteratively concatenating
the noisy image as the condition is the root of this problem. Based on this
observation, we develop an iterative inversion (IterInv) technique for this
stream of T2I models and verify IterInv with the open-source DeepFloyd-IF
model. By combining our method IterInv with a popular image editing method, we
prove the application prospects of IterInv. The code will be released at
\url{https://github.com/Tchuanm/IterInv.git}.
- Abstract(参考訳): 大規模テキスト画像拡散モデルは、入力テキストプロンプトに従って説得力のある画像を生成するための画期的な開発である。
画像編集研究の目的は、ユーザーがテキストプロンプトを変更することによって生成された画像を制御することである。
現在の画像編集技術は、LDM(Latent Diffusion Models)に基づくDDIMインバージョンに依存している。
しかし、LDMがオートエンコーダ機構を備えた最初の圧縮段階により詳細を失うと、遅延空間で動作する大きな事前訓練されたT2Iモデルが存在する。
代わりに、ImagenやDeepFloyd-IFといった画素レベルで動作する別のメインストリームのT2Iパイプラインは、この問題を回避する。
通常は複数のステージで構成され、通常はテキストから画像へのステージと、いくつかの超解像度ステージで構成される。
この場合、DDIMのインバージョンは、超解像拡散モデルがDDIM技術と互換性がないため、元の画像を生成する初期ノイズを見つけることができない。
実験結果によると,雑音画像を条件として反復結合することがこの問題の根源である。
本研究では,このT2Iモデルのストリームに対する反復反転(IterInv)手法を開発し,オープンソースのDeepFloyd-IFモデルを用いてIterInvを検証する。
IterInvの手法と一般的な画像編集手法を組み合わせることで、IterInvの応用可能性を証明する。
コードは \url{https://github.com/Tchuanm/IterInv.git} でリリースされる。
関連論文リスト
- Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。
提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。
画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T23:38:12Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - BLIP-Diffusion: Pre-trained Subject Representation for Controllable
Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。
他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文 参考訳(メタデータ) (2023-05-24T04:51:04Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Training-free Content Injection using h-space in Diffusion Models [16.51521884698886]
本稿では,生成過程における特徴を組み合わせることで,ある画像の内容を他の画像に注入する手法を提案する。
カスタム拡散アプローチとは異なり、我々の手法は時間を要する最適化や微調整を必要としない。
論文 参考訳(メタデータ) (2023-03-27T17:19:50Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Unsupervised Image-to-Image Translation via Pre-trained StyleGAN2
Network [73.5062435623908]
本稿では,一連のモデル変換によって対象領域に新たなモデルを生成する新しいI2I翻訳手法を提案する。
潜在ベクトルを生成されたモデルに入力することで、ソースドメインとターゲットドメインの間でI2I翻訳を行うことができる。
論文 参考訳(メタデータ) (2020-10-12T13:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。