論文の概要: Training Consistency Models with Variational Noise Coupling
- arxiv url: http://arxiv.org/abs/2502.18197v1
- Date: Tue, 25 Feb 2025 13:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 17:42:46.075971
- Title: Training Consistency Models with Variational Noise Coupling
- Title(参考訳): 変分ノイズカップリングを用いた学習一貫性モデル
- Authors: Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji,
- Abstract要約: 本稿では,フローマッチングフレームワークに基づく新しいCTトレーニング手法を提案する。
我々の主な貢献は、変分オートエンコーダ(VAE)のアーキテクチャにインスパイアされた、訓練されたノイズカップリング方式である。
多様な画像データセットにまたがる経験的結果は、顕著な生成的改善を示している。
- 参考スコア(独自算出の注目度): 21.978942601947026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Consistency Training (CT) has recently emerged as a promising alternative to diffusion models, achieving competitive performance in image generation tasks. However, non-distillation consistency training often suffers from high variance and instability, and analyzing and improving its training dynamics is an active area of research. In this work, we propose a novel CT training approach based on the Flow Matching framework. Our main contribution is a trained noise-coupling scheme inspired by the architecture of Variational Autoencoders (VAE). By training a data-dependent noise emission model implemented as an encoder architecture, our method can indirectly learn the geometry of the noise-to-data mapping, which is instead fixed by the choice of the forward process in classical CT. Empirical results across diverse image datasets show significant generative improvements, with our model outperforming baselines and achieving the state-of-the-art (SoTA) non-distillation CT FID on CIFAR-10, and attaining FID on par with SoTA on ImageNet at $64 \times 64$ resolution in 2-step generation. Our code is available at https://github.com/sony/vct .
- Abstract(参考訳): 最近CT(Consistency Training)が拡散モデルに代わる有望な代替として登場し、画像生成タスクにおける競合性能を実現している。
しかしながら、非蒸留整合性トレーニングは、しばしば高いばらつきと不安定性に悩まされ、そのトレーニングダイナミクスの分析と改善は、研究の活発な領域である。
本研究では,フローマッチングフレームワークに基づく新しいCTトレーニング手法を提案する。
我々の主な貢献は、可変オートエンコーダ(VAE)のアーキテクチャにインスパイアされた、トレーニングされたノイズカップリング方式である。
エンコーダアーキテクチャとして実装されたデータ依存型ノイズエミッションモデルをトレーニングすることにより,従来のCTにおける前処理の選択によって固定されるノイズ・ツー・データマッピングの幾何学を間接的に学習することができる。
CIFAR-10 上では, ベースラインを上回り, CIFAR-10 上での非蒸留 (SoTA) CT FID を実現し, ImageNet 上の SoTA と同等の FID を, 2ステップ世代で 64$ の解像度で 64 \times 64$ で達成した。
私たちのコードはhttps://github.com/sony/vct で利用可能です。
関連論文リスト
- Multi-View Learning with Context-Guided Receptance for Image Denoising [18.175992709188026]
写真や自動運転などの低レベルの視覚アプリケーションでは、画像のデノイングが不可欠である。
既存の手法では、現実のシーンで複雑なノイズパターンを識別し、重要な計算資源を消費する。
本研究では、マルチビュー機能統合と効率的なシーケンスモデリングを組み合わせた、コンテキスト誘導型Receptance Weighted Key-Value(M)モデルを提案する。
このモデルは、複数の実世界の画像復号化データセットで検証され、既存の最先端の手法を定量的に上回り、推論時間を最大40%削減する。
論文 参考訳(メタデータ) (2025-05-05T14:57:43Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Enhancing Low Dose Computed Tomography Images Using Consistency Training Techniques [7.694256285730863]
本稿では,雑音レベル調整の柔軟性を提供するベータノイズ分布について紹介する。
HN-iCT(High Noise Improved Consistency Training)は、教師付き方式で訓練される。
以上の結果より,HN-iCTを用いた非条件画像生成はNFE=1。
論文 参考訳(メタデータ) (2024-11-19T02:48:36Z) - Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。
新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。
本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文 参考訳(メタデータ) (2024-10-24T17:55:52Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。
パラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。
しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。
論文 参考訳(メタデータ) (2024-10-09T08:19:25Z) - SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。
実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。
提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文 参考訳(メタデータ) (2024-03-26T09:03:40Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle
CT Reconstruction [42.028139152832466]
Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。
DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。
論文 参考訳(メタデータ) (2022-11-22T15:30:38Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis [148.16279746287452]
本研究では,残差畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング能力を組み込むスウィンコンブブロックを提案する。
トレーニングデータ合成のために,異なる種類のノイズを考慮した実用的なノイズ劣化モデルの設計を行う。
AGWN除去と実画像復号化の実験は、新しいネットワークアーキテクチャ設計が最先端の性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-03-24T18:11:31Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。