Fugu-MT 論文翻訳(概要): VCT: Training Consistency Models with Variational Noise Coupling

論文の概要: VCT: Training Consistency Models with Variational Noise Coupling

arxiv url: http://arxiv.org/abs/2502.18197v2
Date: Wed, 04 Jun 2025 12:31:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 16:24:48.89112
Title: VCT: Training Consistency Models with Variational Noise Coupling
Title（参考訳）: VCT:変分ノイズカップリングを用いた訓練一貫性モデル
Authors: Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji,
Abstract要約: 変分一貫性トレーニング(VCT)は、様々な前方カーネルと互換性のあるフレキシブルで効果的なフレームワークである。鍵となる革新は、変分オートエンコーダにインスパイアされた学習されたノイズデータ結合方式である。 CIFAR-10の非蒸留CT手法の中で,本手法はベースラインを超越し,最先端のFIDを実現し,ImageNet 64 x 64のSoTA性能を2段階のサンプリングステップで比較した。
参考スコア（独自算出の注目度）: 21.978942601947026
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Consistency Training (CT) has recently emerged as a strong alternative to diffusion models for image generation. However, non-distillation CT often suffers from high variance and instability, motivating ongoing research into its training dynamics. We propose Variational Consistency Training (VCT), a flexible and effective framework compatible with various forward kernels, including those in flow matching. Its key innovation is a learned noise-data coupling scheme inspired by Variational Autoencoders, where a data-dependent encoder models noise emission. This enables VCT to adaptively learn noise-todata pairings, reducing training variance relative to the fixed, unsorted pairings in classical CT. Experiments on multiple image datasets demonstrate significant improvements: our method surpasses baselines, achieves state-of-the-art FID among non-distillation CT approaches on CIFAR-10, and matches SoTA performance on ImageNet 64 x 64 with only two sampling steps. Code is available at https://github.com/sony/vct.
Abstract（参考訳）: 画像生成のための拡散モデルの強力な代替手段として,CT(Consistency Training)が最近登場した。しかし、非蒸留CTは、しばしば高いばらつきと不安定さに悩まされ、そのトレーニング力学に関する継続的な研究を動機付けている。本稿では,フローマッチングを含む,さまざまな前方カーネルと互換性のあるフレキシブルかつ効果的なフレームワークである変分一貫性トレーニング(VCT)を提案する。その重要な革新は、変分オートエンコーダにインスパイアされた学習されたノイズデータ結合方式であり、そこではデータ依存エンコーダがノイズエミッションをモデル化する。これにより、VCTはノイズ対データペアリングを適応的に学習することができ、古典的なCTにおける固定された非ソートペアリングに対するトレーニングのばらつきを低減できる。 CIFAR-10の非蒸留CTアプローチでは,本手法はベースラインを超越し,最先端のFIDを実現し,ImageNet 64 x 64のSoTA性能を2段階のサンプリングステップで比較した。コードはhttps://github.com/sony/vct.comで入手できる。

関連論文リスト

Semantic Editing with Coupled Stochastic Differential Equations [14.747544527069804]
我々は,任意の事前学習された生成モデルのサンプリング過程を導くために,結合微分方程式(結合SDE)を提案する。ソース画像と編集画像の両方を同一の相関雑音で駆動することにより,新たなサンプルを所望のセマンティクスに導出する。
論文参考訳（メタデータ） (2025-09-29T03:05:16Z)
Multi-View Learning with Context-Guided Receptance for Image Denoising [18.175992709188026]
写真や自動運転などの低レベルの視覚アプリケーションでは、画像のデノイングが不可欠である。既存の手法では、現実のシーンで複雑なノイズパターンを識別し、重要な計算資源を消費する。本研究では、マルチビュー機能統合と効率的なシーケンスモデリングを組み合わせた、コンテキスト誘導型Receptance Weighted Key-Value(M)モデルを提案する。このモデルは、複数の実世界の画像復号化データセットで検証され、既存の最先端の手法を定量的に上回り、推論時間を最大40%削減する。
論文参考訳（メタデータ） (2025-05-05T14:57:43Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Enhancing Low Dose Computed Tomography Images Using Consistency Training Techniques [7.694256285730863]
本稿では,雑音レベル調整の柔軟性を提供するベータノイズ分布について紹介する。 HN-iCT(High Noise Improved Consistency Training)は、教師付き方式で訓練される。以上の結果より,HN-iCTを用いた非条件画像生成はNFE=1。
論文参考訳（メタデータ） (2024-11-19T02:48:36Z)
Stable Consistency Tuning: Understanding and Improving Consistency Models [40.2712218203989]
拡散モデルは、より優れた生成品質を達成するが、復調の反復的な性質により、生成速度が遅くなる。新しいジェネレーティブファミリーである一貫性モデルは、非常に高速なサンプリングで競争性能を達成する。本稿では,拡散モデルの分解過程をマルコフ決定過程(MDP)としてモデル化し,時間差分学習(TD)による値推定としてフレーミング一貫性モデルのトレーニングを提案する。
論文参考訳（メタデータ） (2024-10-24T17:55:52Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning [45.89372687373466]
拡散モデルは、ノイズ破損の各ステップを反転させる一連のモデルを学ぶことで訓練される。パラメータはトレーニング効率を高めるために、複数のタイムステップで完全に共有されます。しかし、デノナイジングタスクは各タイミングで異なるため、異なるタイミングで計算された勾配は相反する可能性があり、画像生成の全体的な性能を低下させる可能性がある。
論文参考訳（メタデータ） (2024-10-09T08:19:25Z)
SeNM-VAE: Semi-Supervised Noise Modeling with Hierarchical Variational Autoencoder [13.453138169497903]
SeNM-VAEは、ペアとアンペアの両方のデータセットを利用して、現実的な劣化データを生成する半教師付きノイズモデリング手法である。実世界の画像認識と超分解能タスクのためのペアトレーニングサンプルを生成するために,本手法を用いた。提案手法は, 合成劣化画像の品質を, 他の不対とペアのノイズモデリング法と比較して向上させる。
論文参考訳（メタデータ） (2024-03-26T09:03:40Z)
Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文参考訳（メタデータ） (2024-02-07T14:59:25Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。 DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文参考訳（メタデータ） (2023-12-04T18:57:01Z)
Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文参考訳（メタデータ） (2023-09-29T03:24:24Z)
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文参考訳（メタデータ） (2022-12-02T11:40:40Z)
DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle CT Reconstruction [42.028139152832466]
Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。 DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。
論文参考訳（メタデータ） (2022-11-22T15:30:38Z)
Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Practical Blind Image Denoising via Swin-Conv-UNet and Data Synthesis [148.16279746287452]
本研究では,残差畳み込み層の局所モデリング能力とスウィントランスブロックの非局所モデリング能力を組み込むスウィンコンブブロックを提案する。トレーニングデータ合成のために,異なる種類のノイズを考慮した実用的なノイズ劣化モデルの設計を行う。 AGWN除去と実画像復号化の実験は、新しいネットワークアーキテクチャ設計が最先端の性能を達成することを実証している。
論文参考訳（メタデータ） (2022-03-24T18:11:31Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。