論文の概要: Bidirectional Consistency Models
- arxiv url: http://arxiv.org/abs/2403.18035v3
- Date: Mon, 30 Sep 2024 11:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:01.336538
- Title: Bidirectional Consistency Models
- Title(参考訳): 双方向一貫性モデル
- Authors: Liangchen Li, Jiajun He,
- Abstract要約: 拡散モデル(DM)は、ランダムなベクトルを反復的に分解することで高品質なサンプルを生成する。
DMは確率フロー常微分方程式(PF ODE)に沿って後方に移動することによって入力画像から雑音への逆変換を行うことができる
- 参考スコア(独自算出の注目度): 1.486435467709869
- License:
- Abstract: Diffusion models (DMs) are capable of generating remarkably high-quality samples by iteratively denoising a random vector, a process that corresponds to moving along the probability flow ordinary differential equation (PF ODE). Interestingly, DMs can also invert an input image to noise by moving backward along the PF ODE, a key operation for downstream tasks such as interpolation and image editing. However, the iterative nature of this process restricts its speed, hindering its broader application. Recently, Consistency Models (CMs) have emerged to address this challenge by approximating the integral of the PF ODE, largely reducing the number of iterations. Yet, the absence of an explicit ODE solver complicates the inversion process. To resolve this, we introduce Bidirectional Consistency Model (BCM), which learns a single neural network that enables both forward and backward traversal along the PF ODE, efficiently unifying generation and inversion tasks within one framework. We can train BCM from scratch or tune it using a pretrained consistency model, wh ich reduces the training cost and increases scalability. We demonstrate that BCM enables one-step generation and inversion while also allowing the use of additional steps to enhance generation quality or reduce reconstruction error. We further showcase BCM's capability in downstream tasks, such as interpolation, inpainting, and blind restoration of compressed images. Notably, when the number of function evaluations (NFE) is constrained, BCM surpasses domain-specific restoration methods, such as I$^2$SB and Palette, in a fully zero-shot manner, offering an efficient alternative for inversion problems. Our code and weights are available at https://github.com/Mosasaur5526/BCM-iCT-torch.
- Abstract(参考訳): 拡散モデル(DM)は、確率フロー常微分方程式(PF ODE)に沿って移動するプロセスであるランダムベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
興味深いことに、DMは、補間や画像編集といった下流タスクのキー操作であるPFODEに沿って後方に移動することで、入力画像からノイズへの変換も可能である。
しかし、このプロセスの反復的な性質は、その速度を制限し、より広範な応用を妨げる。
近年、PF ODEの積分を近似することにより、CM(Consistency Models)がこの問題に対処し、イテレーションの数を大幅に削減している。
しかし、明示的なODEソルバが存在しないことは、反転過程を複雑にする。
これを解決するために,PF ODE に沿った前方と後方の両方のトラバースが可能な単一ニューラルネットワークを学習し,ひとつのフレームワーク内で生成タスクと反転タスクを効率的に統合する双方向一貫性モデル (BCM) を導入する。
BCMをスクラッチからトレーニングしたり、事前トレーニングされた一貫性モデルを使ってチューニングしたりできます。
我々は,BCMが一段階生成と逆変換を可能にすると同時に,生成品質の向上や再構成誤差の低減のために追加ステップを使用することを実証した。
さらに、補間、塗装、圧縮画像のブラインド復元など、下流タスクにおけるBCMの機能を示す。
特に、関数評価(NFE)の回数が制限されると、BCMはI$^2$SBやPaletteといったドメイン固有の復元手法をゼロショットで越え、逆問題に対する効率的な代替手段を提供する。
コードとウェイトはhttps://github.com/Mosasaur5526/BCM-iCT-torch.comで公開されています。
関連論文リスト
- Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
モデル構造では、二項化に最適化されたUNetアーキテクチャを設計する。
我々は,一貫した次元を維持するために,一貫した画素ダウンサンプル (CP-Down) と一貫したピクセルアップサンプル (CP-Up) を提案する。
BI-DiffSRが既存のバイナライゼーション法より優れていることを示す総合実験を行った。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Image Inpainting via Tractable Steering of Diffusion Models [54.13818673257381]
本稿では,トラクタブル確率モデル(TPM)の制約後部を正確に,かつ効率的に計算する能力を活用することを提案する。
具体的には、確率回路(PC)と呼ばれる表現型TPMのクラスを採用する。
提案手法は, 画像の全体的な品質とセマンティックコヒーレンスを, 計算オーバーヘッドを10%加えるだけで一貫的に改善できることを示す。
論文 参考訳(メタデータ) (2023-11-28T21:14:02Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - vSHARP: variable Splitting Half-quadratic ADMM algorithm for
Reconstruction of inverse-Problems [7.694990352622926]
MRI再建では、不十分な逆問題が発生し、十分なクローズドフォーム解析解が得られない。
逆問題再構成のための教師付き分割半四分法ADMMアルゴリズム(vSHARP)を提案する。
本稿では,vSHARPの優れた性能に着目し,最先端手法による実験結果の比較分析を行った。
論文 参考訳(メタデータ) (2023-09-18T17:26:22Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Invertible Rescaling Network and Its Extensions [118.72015270085535]
本研究では,新たな視点から双方向の劣化と復元をモデル化する,新しい可逆的枠組みを提案する。
我々は、有効な劣化画像を生成し、失われたコンテンツの分布を変換する可逆モデルを開発する。
そして、ランダムに描画された潜在変数とともに、生成された劣化画像に逆変換を適用することにより、復元可能とする。
論文 参考訳(メタデータ) (2022-10-09T06:58:58Z) - Enhancing Image Rescaling using Dual Latent Variables in Invertible
Neural Network [42.18106162158025]
画像ダウンスケーリングプロセスのバリエーションをモデル化するために、新しいダウンスケーリング潜在変数が導入された。
これにより、ダウンスケールのLR画像の画質を犠牲にすることなく、画像のアップスケーリング精度を一貫して向上させることができる。
また、画像隠蔽のような画像復元アプリケーションのための他の INN ベースのモデルの拡張にも有効であることが示されている。
論文 参考訳(メタデータ) (2022-07-24T23:12:51Z) - Deep Variational Network Toward Blind Image Restoration [60.45350399661175]
ブラインド画像復元はコンピュータビジョンでは一般的だが難しい問題である。
両利点を両立させることを目的として,新しいブラインド画像復元手法を提案する。
画像デノイングと超解像という2つの典型的なブラインド赤外線タスクの実験により,提案手法が現状よりも優れた性能を達成できることが実証された。
論文 参考訳(メタデータ) (2020-08-25T03:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。