論文の概要: Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.12540v2
- Date: Tue, 28 May 2024 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:50:38.825858
- Title: Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models
- Title(参考訳): テキスト-画像拡散モデルのための正規化ニュートンラフソンインバージョン
- Authors: Dvir Samuel, Barak Meiri, Nir Darshan, Shai Avidan, Gal Chechik, Rami Ben-Ari,
- Abstract要約: 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。
そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。
我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。
- 参考スコア(独自算出の注目度): 37.436861369520614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion inversion is the problem of taking an image and a text prompt that describes it and finding a noise latent that would generate the image. Most current inversion techniques operate by approximately solving an implicit equation and may converge slowly or yield poor reconstructed images. Here, we formulate the problem as finding the roots of an implicit equation and design a method to solve it efficiently. Our solution is based on Newton-Raphson (NR), a well-known technique in numerical analysis. A naive application of NR may be computationally infeasible and tends to converge to incorrect solutions. We describe an efficient regularized formulation that converges quickly to a solution that provides high-quality reconstructions. We also identify a source of inconsistency stemming from prompt conditioning during the inversion process, which significantly degrades the inversion quality. To address this, we introduce a prompt-aware adjustment of the encoding, effectively correcting this issue. Our solution, Regularized Newton-Raphson Inversion, inverts an image within 0.5 sec for latent consistency models, opening the door for interactive image editing. We further demonstrate improved results in image interpolation and generation of rare objects.
- Abstract(参考訳): 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。
現在のほとんどのインバージョン技術は、暗黙の方程式を解くことで動作し、ゆっくりと収束するか、再構成された画像が貧弱になる可能性がある。
そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。
我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。
NRの単純な応用は計算不可能であり、誤った解に収束する傾向がある。
高品質な再構成を提供する解に迅速に収束する効率的な正規化定式化について述べる。
また,インバージョンプロセス中の条件付けによる不整合の原因を同定し,インバージョン品質を著しく低下させる。
この問題に対処するため、我々はエンコーディングの即時調整を導入し、この問題を効果的に修正する。
我々のソリューションであるRegularized Newton-Raphson Inversionは、遅延一貫性モデルのために0.5秒以内に画像を反転させ、インタラクティブな画像編集のための扉を開く。
さらに、画像補間と希少物体の生成における改善された結果を示す。
関連論文リスト
- Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Image Restoration with Mean-Reverting Stochastic Differential Equations [9.245782611878752]
本稿では,汎用画像復元のための微分方程式(SDE)を提案する。
対応する逆時間SDEをシミュレートすることにより、低画質画像の起源を復元することができる。
実験の結果,提案手法は画像の劣化, 劣化, 騒音の定量的比較において, 高い競争性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-01-27T13:20:48Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Invertible Rescaling Network and Its Extensions [118.72015270085535]
本研究では,新たな視点から双方向の劣化と復元をモデル化する,新しい可逆的枠組みを提案する。
我々は、有効な劣化画像を生成し、失われたコンテンツの分布を変換する可逆モデルを開発する。
そして、ランダムに描画された潜在変数とともに、生成された劣化画像に逆変換を適用することにより、復元可能とする。
論文 参考訳(メタデータ) (2022-10-09T06:58:58Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Denoising Diffusion Restoration Models [110.1244240726802]
Denoising Diffusion Restoration Models (DDRM) は効率的で教師なしの後方サンプリング手法である。
DDRMの汎用性を、超高解像度、デブロアリング、インペイント、カラー化のためにいくつかの画像データセットに示す。
論文 参考訳(メタデータ) (2022-01-27T20:19:07Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z) - Learned convex regularizers for inverse problems [3.294199808987679]
本稿では,逆問題に対する正規化器として,データ適応型入力ニューラルネットワーク(ICNN)を学習することを提案する。
パラメータ空間における単調な誤差を反復で減少させる部分次アルゴリズムの存在を実証する。
提案した凸正則化器は, 逆問題に対する最先端のデータ駆動技術に対して, 少なくとも競争力があり, 時には優位であることを示す。
論文 参考訳(メタデータ) (2020-08-06T18:58:35Z) - u-net CNN based fourier ptychography [5.46367622374939]
本稿では,畳み込みニューラルネットワークに基づく新しい検索アルゴリズムを提案する。
実験により, システム収差下において, 再現性が向上し, より堅牢であることが確認された。
論文 参考訳(メタデータ) (2020-03-16T22:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。