Fugu-MT 論文翻訳(概要): Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models

論文の概要: Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2312.12540v2
Date: Tue, 28 May 2024 18:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 23:50:38.825858
Title: Regularized Newton Raphson Inversion for Text-to-Image Diffusion Models
Title（参考訳）: テキスト-画像拡散モデルのための正規化ニュートンラフソンインバージョン
Authors: Dvir Samuel, Barak Meiri, Nir Darshan, Shai Avidan, Gal Chechik, Rami Ben-Ari,
Abstract要約: 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。
参考スコア（独自算出の注目度）: 37.436861369520614
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion inversion is the problem of taking an image and a text prompt that describes it and finding a noise latent that would generate the image. Most current inversion techniques operate by approximately solving an implicit equation and may converge slowly or yield poor reconstructed images. Here, we formulate the problem as finding the roots of an implicit equation and design a method to solve it efficiently. Our solution is based on Newton-Raphson (NR), a well-known technique in numerical analysis. A naive application of NR may be computationally infeasible and tends to converge to incorrect solutions. We describe an efficient regularized formulation that converges quickly to a solution that provides high-quality reconstructions. We also identify a source of inconsistency stemming from prompt conditioning during the inversion process, which significantly degrades the inversion quality. To address this, we introduce a prompt-aware adjustment of the encoding, effectively correcting this issue. Our solution, Regularized Newton-Raphson Inversion, inverts an image within 0.5 sec for latent consistency models, opening the door for interactive image editing. We further demonstrate improved results in image interpolation and generation of rare objects.
Abstract（参考訳）: 拡散反転は、画像とそれを記述したテキストプロンプトを取り込み、画像を生成する雑音消音器を見つけるという問題である。現在のほとんどのインバージョン技術は、暗黙の方程式を解くことで動作し、ゆっくりと収束するか、再構成された画像が貧弱になる可能性がある。そこで我々は,この問題を暗黙の方程式の根源として定式化し,効率的な解法を設計する。我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。 NRの単純な応用は計算不可能であり、誤った解に収束する傾向がある。高品質な再構成を提供する解に迅速に収束する効率的な正規化定式化について述べる。また,インバージョンプロセス中の条件付けによる不整合の原因を同定し,インバージョン品質を著しく低下させる。この問題に対処するため、我々はエンコーディングの即時調整を導入し、この問題を効果的に修正する。我々のソリューションであるRegularized Newton-Raphson Inversionは、遅延一貫性モデルのために0.5秒以内に画像を反転させ、インタラクティブな画像編集のための扉を開く。さらに、画像補間と希少物体の生成における改善された結果を示す。

関連論文リスト

DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion [65.5172878666262]
拡散インバージョンは、実行可能な監視信号が欠如しているため、難しい課題である。本稿では,Deep Inversion(DeepInv)と呼ばれる自己教師付き拡散インバージョン手法を提案する。 DeepInvはまた、パラメータ化インバージョンソルバをトレーニングするための反復的かつマルチスケールのトレーニングシステムも備えている。
論文参考訳（メタデータ） (2026-01-04T11:27:26Z)
An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文参考訳（メタデータ） (2024-12-28T03:32:26Z)
Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野では例外的な性能を示した。その堅牢な生成能力にもかかわらず、これらのモデルはしばしば不正確な逆転に悩まされ、画像やビデオ編集などの下流タスクにおける有効性を制限できる。本稿では,修正フローODEの解法における誤差を低減し,インバージョン精度を向上させる新しいトレーニングフリーサンプリング器RF-rを提案する。
論文参考訳（メタデータ） (2024-11-07T14:29:02Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
ERDDCI: Exact Reversible Diffusion via Dual-Chain Inversion for High-Quality Image Editing [20.46262679357339]
拡散モデル(DM)は実画像編集に成功している。近年のDMは、しばしば局所線形化の仮定に依存している。 ERDDCIは、新しいDual-Chain Inversion (DCI) を用いて関節推論を行い、正確な可逆拡散過程を導出する。
論文参考訳（メタデータ） (2024-10-18T07:52:03Z)
Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文参考訳（メタデータ） (2024-05-29T23:38:12Z)
Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。 P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文参考訳（メタデータ） (2023-10-02T11:31:48Z)
Effective Real Image Editing with Accelerated Iterative Diffusion Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文参考訳（メタデータ） (2023-09-10T01:23:05Z)
A Variational Perspective on Solving Inverse Problems with Diffusion Models [101.831766524264]
逆タスクは、データ上の後続分布を推測するものとして定式化することができる。しかし、拡散過程の非線形的かつ反復的な性質が後部を引き付けるため、拡散モデルではこれは困難である。そこで我々は,真の後続分布を近似する設計手法を提案する。
論文参考訳（メタデータ） (2023-05-07T23:00:47Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Vector Quantized Diffusion Model for Text-to-Image Synthesis [47.09451151258849]
テキスト・画像生成のためのベクトル量子化拡散(VQ-Diffusion)モデルを提案する。実験の結果,VQ-Diffusion はテキスト・画像生成結果を大幅に改善することがわかった。
論文参考訳（メタデータ） (2021-11-29T18:59:46Z)
Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文参考訳（メタデータ） (2020-08-25T03:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。