論文の概要: Bidirectional Consistency Models
- arxiv url: http://arxiv.org/abs/2403.18035v2
- Date: Sat, 30 Mar 2024 13:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:25:26.487363
- Title: Bidirectional Consistency Models
- Title(参考訳): 双方向一貫性モデル
- Authors: Liangchen Li, Jiajun He,
- Abstract要約: 拡散モデル(DM)は、ランダムなベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
DMはまた、確率フロー常微分方程式(PF ODE)に沿って後方に移動することにより、入力画像から雑音への逆変換も可能である。
- 参考スコア(独自算出の注目度): 1.486435467709869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models (DMs) are capable of generating remarkably high-quality samples by iteratively denoising a random vector, a process that corresponds to moving along the probability flow ordinary differential equation (PF ODE). Interestingly, DMs can also invert an input image to noise by moving backward along the PF ODE, a key operation for downstream tasks such as interpolation and image editing. However, the iterative nature of this process restricts its speed, hindering its broader application. Recently, Consistency Models (CMs) have emerged to address this challenge by approximating the integral of the PF ODE, largely reducing the number of iterations. Yet, the absence of an explicit ODE solver complicates the inversion process. To resolve this, we introduce the Bidirectional Consistency Model (BCM), which learns a single neural network that enables both forward and backward traversal along the PF ODE, efficiently unifying generation and inversion tasks within one framework. Notably, our proposed method enables one-step generation and inversion while also allowing the use of additional steps to enhance generation quality or reduce reconstruction error. Furthermore, by leveraging our model's bidirectional consistency, we introduce a sampling strategy that can enhance FID while preserving the generated image content. We further showcase our model's capabilities in several downstream tasks, such as interpolation and inpainting, and present demonstrations of potential applications, including blind restoration of compressed images and defending black-box adversarial attacks.
- Abstract(参考訳): 拡散モデル(DM)は、確率フロー常微分方程式(PF ODE)に沿って移動するプロセスであるランダムベクトルを反復的に認知することで、驚くほど高品質なサンプルを生成することができる。
興味深いことに、DMは、補間や画像編集といった下流タスクのキー操作であるPFODEに沿って後方に移動することで、入力画像からノイズへの変換も可能である。
しかし、このプロセスの反復的な性質は、その速度を制限し、より広範な応用を妨げる。
近年、PF ODEの積分を近似することにより、CM(Consistency Models)がこの問題に対処し、イテレーションの数を大幅に削減している。
しかし、明示的なODEソルバが存在しないことは、反転過程を複雑にする。
これを解決するために,PF ODE に沿った前方と後方の両方のトラバースが可能な単一ニューラルネットワークを学習し,ひとつのフレームワーク内で生成タスクと反転タスクを効率的に統一する双方向一貫性モデル (BCM) を導入する。
特に,提案手法では,1ステップ生成と逆変換が可能であり,さらに生成品質の向上や再構成誤差の低減のために追加ステップを使用することが可能である。
さらに,モデルの双方向一貫性を活用することで,生成した画像コンテンツを保存しながらFIDを向上させるサンプリング戦略を導入する。
我々はさらに、補間や塗装などの下流タスクにおいて、我々のモデル能力を示すとともに、圧縮画像のブラインド復元やブラックボックスの敵攻撃の防御など、潜在的な応用のデモンストレーションを行う。
関連論文リスト
- Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - On Exact Bit-level Reversible Transformers Without Changing Architectures [4.282029766809805]
トレーニングプロセスにおけるメモリ消費を減らすために、可逆的なディープニューラルネットワーク(DNN)が提案されている。
提案するBDIA-transformerはビットレベルのリバーシブルトランスであり,標準アーキテクチャを変更せずに推論を行う。
論文 参考訳(メタデータ) (2024-07-12T08:42:58Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Look-Around Before You Leap: High-Frequency Injected Transformer for Image Restoration [46.96362010335177]
本稿では,画像復元のための簡易かつ効果的な高周波インジェクト変換器HITを提案する。
具体的には,機能マップに高頻度の詳細を組み込んだウィンドウワイドインジェクションモジュール(WIM)を設計し,高品質な画像の復元のための信頼性の高い参照を提供する。
さらに,BIMにおけるチャネル次元の計算によって失われる可能性のある空間的関係を維持するために,空間拡張ユニット(SEU)を導入する。
論文 参考訳(メタデータ) (2024-03-30T08:05:00Z) - MsDC-DEQ-Net: Deep Equilibrium Model (DEQ) with Multi-scale Dilated
Convolution for Image Compressive Sensing (CS) [0.0]
圧縮センシング(CS)は、従来のサンプリング法よりも少ない測定値を用いてスパース信号の回復を可能にする技術である。
我々はCSを用いた自然画像再構成のための解釈可能かつ簡潔なニューラルネットワークモデルを構築した。
MsDC-DEQ-Netと呼ばれるこのモデルは、最先端のネットワークベースの手法と比較して、競争力のある性能を示す。
論文 参考訳(メタデータ) (2024-01-05T16:25:58Z) - Deep Equilibrium Diffusion Restoration with Parallel Sampling [120.15039525209106]
拡散モデルに基づく画像復元(IR)は、拡散モデルを用いて劣化した画像から高品質な(本社)画像を復元し、有望な性能を達成することを目的としている。
既存のほとんどの手法では、HQイメージをステップバイステップで復元するために長いシリアルサンプリングチェーンが必要であるため、高価なサンプリング時間と高い計算コストがかかる。
本研究では,拡散モデルに基づくIRモデルを異なる視点,すなわちDeqIRと呼ばれるDeQ(Deep equilibrium)固定点系で再考することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T08:27:56Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - A memory-efficient neural ODE framework based on high-level adjoint
differentiation [4.063868707697316]
我々は、高レベル離散アルゴリズムの微分に基づく新しいニューラルODEフレームワーク、PNODEを提案する。
PNODEは他の逆精度の手法と比較してメモリ効率が最も高いことを示す。
論文 参考訳(メタデータ) (2022-06-02T20:46:26Z) - Denoising Diffusion Restoration Models [110.1244240726802]
Denoising Diffusion Restoration Models (DDRM) は効率的で教師なしの後方サンプリング手法である。
DDRMの汎用性を、超高解像度、デブロアリング、インペイント、カラー化のためにいくつかの画像データセットに示す。
論文 参考訳(メタデータ) (2022-01-27T20:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。