論文の概要: VCT: Training Consistency Models with Variational Noise Coupling
- arxiv url: http://arxiv.org/abs/2502.18197v2
- Date: Wed, 04 Jun 2025 12:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.89112
- Title: VCT: Training Consistency Models with Variational Noise Coupling
- Title(参考訳): VCT:変分ノイズカップリングを用いた訓練一貫性モデル
- Authors: Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji,
- Abstract要約: 変分一貫性トレーニング(VCT)は、様々な前方カーネルと互換性のあるフレキシブルで効果的なフレームワークである。
鍵となる革新は、変分オートエンコーダにインスパイアされた学習されたノイズデータ結合方式である。
CIFAR-10の非蒸留CT手法の中で,本手法はベースラインを超越し,最先端のFIDを実現し,ImageNet 64 x 64のSoTA性能を2段階のサンプリングステップで比較した。
- 参考スコア(独自算出の注目度): 21.978942601947026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Consistency Training (CT) has recently emerged as a strong alternative to diffusion models for image generation. However, non-distillation CT often suffers from high variance and instability, motivating ongoing research into its training dynamics. We propose Variational Consistency Training (VCT), a flexible and effective framework compatible with various forward kernels, including those in flow matching. Its key innovation is a learned noise-data coupling scheme inspired by Variational Autoencoders, where a data-dependent encoder models noise emission. This enables VCT to adaptively learn noise-todata pairings, reducing training variance relative to the fixed, unsorted pairings in classical CT. Experiments on multiple image datasets demonstrate significant improvements: our method surpasses baselines, achieves state-of-the-art FID among non-distillation CT approaches on CIFAR-10, and matches SoTA performance on ImageNet 64 x 64 with only two sampling steps. Code is available at https://github.com/sony/vct.
- Abstract(参考訳): 画像生成のための拡散モデルの強力な代替手段として,CT(Consistency Training)が最近登場した。
しかし、非蒸留CTは、しばしば高いばらつきと不安定さに悩まされ、そのトレーニング力学に関する継続的な研究を動機付けている。
本稿では,フローマッチングを含む,さまざまな前方カーネルと互換性のあるフレキシブルかつ効果的なフレームワークである変分一貫性トレーニング(VCT)を提案する。
その重要な革新は、変分オートエンコーダにインスパイアされた学習されたノイズデータ結合方式であり、そこではデータ依存エンコーダがノイズエミッションをモデル化する。
これにより、VCTはノイズ対データペアリングを適応的に学習することができ、古典的なCTにおける固定された非ソートペアリングに対するトレーニングのばらつきを低減できる。
CIFAR-10の非蒸留CTアプローチでは,本手法はベースラインを超越し,最先端のFIDを実現し,ImageNet 64 x 64のSoTA性能を2段階のサンプリングステップで比較した。
コードはhttps://github.com/sony/vct.comで入手できる。
関連論文リスト
- One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Enhancing Low Dose Computed Tomography Images Using Consistency Training Techniques [7.694256285730863]
本稿では,雑音レベル調整の柔軟性を提供するベータノイズ分布について紹介する。
HN-iCT(High Noise Improved Consistency Training)は、教師付き方式で訓練される。
以上の結果より,HN-iCTを用いた非条件画像生成はNFE=1。
論文 参考訳(メタデータ) (2024-11-19T02:48:36Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle
CT Reconstruction [42.028139152832466]
Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。
DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。
論文 参考訳(メタデータ) (2022-11-22T15:30:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis [148.16279746287452]
本研究では,残差畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング能力を組み込むスウィンコンブブロックを提案する。
トレーニングデータ合成のために,異なる種類のノイズを考慮した実用的なノイズ劣化モデルの設計を行う。
AGWN除去と実画像復号化の実験は、新しいネットワークアーキテクチャ設計が最先端の性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-03-24T18:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。