論文の概要: Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation
- arxiv url: http://arxiv.org/abs/2603.23903v1
- Date: Wed, 25 Mar 2026 03:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.116125
- Title: Latent Bias Alignment for High-Fidelity Diffusion Inversion in Real-World Image Reconstruction and Manipulation
- Title(参考訳): 実世界の画像再構成とマニピュレーションにおける高忠実度拡散インバージョンのための潜在バイアスアライメント
- Authors: Weiming Chen, Qifan Liu, Siyi Liu, Yushun Tang, Yijia Wang, Zhihan Zhu, Zhihai He,
- Abstract要約: テキスト間の拡散モデルは、テキストプロンプトによって導かれる高品質な画像を生成することができる。
シードノイズから実世界の画像を生成または近似するために使用できるか?
拡散反転問題は、ブリッジング拡散モデルと実世界のシナリオのためのビルディングブロックとして機能する。
- 参考スコア(独自算出の注目度): 25.312675775144154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has shown that text-to-image diffusion models are capable of generating high-quality images guided by text prompts. But can they be used to generate or approximate real-world images from the seed noise? This is known as the diffusion inversion problem, which serves as a fundamental building block for bridging diffusion models and real-world scenarios. However, existing diffusion inversion methods often suffer from low reconstruction quality or weak robustness. Two major challenges need to be carefully addressed: (1) the misalignment between the inversion and generation trajectories during the diffusion process, and (2) the mismatch between the diffusion inversion process and the VQ autoencoder (VQAE) reconstruction. To address these challenges, we introduce a latent bias vector at each inversion step, which is learned to reduce the misalignment between inversion and generation trajectories. We refer to this strategy as Latent Bias Optimization (LBO). Furthermore, we perform an approximate joint optimization of the diffusion inversion and VQAE reconstruction processes by learning to adjust the image latent representation, which serves as the connecting interface between them. We refer to this technique as Image Latent Boosting (ILB). Extensive experimental results demonstrate that the proposed method significantly improves the image reconstruction quality of the diffusion model, as well as the performance of downstream tasks, including image editing and rare concept generation.
- Abstract(参考訳): 近年の研究では、テキスト間拡散モデルにより、テキストプロンプトによって誘導される高品質な画像を生成することができることが示されている。
しかし、それらはシードノイズから現実世界の画像を生成したり、近似したりするのに使えるのだろうか?
これは拡散反転問題として知られ、拡散モデルや実世界のシナリオをブリッジするための基本的な構成要素として機能する。
しかし、既存の拡散反転法は、しばしば低い復元品質または弱い堅牢性に悩まされる。
1)拡散過程における逆転と生成軌道の相違,(2)拡散反転過程とVQオートエンコーダ(VQAE)再構成の相違。
これらの課題に対処するために、各反転ステップに潜在バイアスベクトルを導入し、逆転と生成軌跡のミスアライメントを低減することを学習する。
この戦略をLBO(Latent Bias Optimization)と呼ぶ。
さらに、拡散インバージョンとVQAE再構成プロセスの近似的な共同最適化を行い、それら間の接続インターフェースとして機能する画像潜在表現の調整を学習する。
我々はこの手法をイメージラテントブースティング(ILB)と呼ぶ。
大規模な実験結果から,提案手法は拡散モデルの画像再構成品質を著しく向上させるとともに,画像編集や稀な概念生成を含む下流タスクの性能も向上することが示された。
関連論文リスト
- DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing [73.12011187146481]
Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。
ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。
本稿ではDCI(Dual-Conditional Inversion)について紹介する。
論文 参考訳(メタデータ) (2025-06-03T07:46:44Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - A Wavelet Diffusion GAN for Image Super-Resolution [7.986370916847687]
拡散モデルは,高忠実度画像生成のためのGAN(Generative Adversarial Network)の優れた代替品として登場した。
しかし、そのリアルタイム実現性は、遅いトレーニングと推論速度によって妨げられている。
本研究では,ウェーブレットを用いた単一画像超解法のための条件拡散GANスキームを提案する。
論文 参考訳(メタデータ) (2024-10-23T15:34:06Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。