Fugu-MT 論文翻訳(概要): Improved Training Technique for Latent Consistency Models

論文の概要: Improved Training Technique for Latent Consistency Models

arxiv url: http://arxiv.org/abs/2502.01441v1
Date: Mon, 03 Feb 2025 15:25:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.05002
Title: Improved Training Technique for Latent Consistency Models
Title（参考訳）: 潜時整合モデルの学習改善手法
Authors: Quan Dao, Khanh Doan, Di Liu, Trung Le, Dimitris Metaxas,
Abstract要約: 一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる。画素空間と潜伏空間の統計的差異を解析し、潜伏データがしばしば非常にインパルス的な外れ値を含むことを発見した。我々は,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。
参考スコア（独自算出の注目度）: 18.617862678160243
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Consistency models are a new family of generative models capable of producing high-quality samples in either a single step or multiple steps. Recently, consistency models have demonstrated impressive performance, achieving results on par with diffusion models in the pixel space. However, the success of scaling consistency training to large-scale datasets, particularly for text-to-image and video generation tasks, is determined by performance in the latent space. In this work, we analyze the statistical differences between pixel and latent spaces, discovering that latent data often contains highly impulsive outliers, which significantly degrade the performance of iCT in the latent space. To address this, we replace Pseudo-Huber losses with Cauchy losses, effectively mitigating the impact of outliers. Additionally, we introduce a diffusion loss at early timesteps and employ optimal transport (OT) coupling to further enhance performance. Lastly, we introduce the adaptive scaling-$c$ scheduler to manage the robust training process and adopt Non-scaling LayerNorm in the architecture to better capture the statistics of the features and reduce outlier impact. With these strategies, we successfully train latent consistency models capable of high-quality sampling with one or two steps, significantly narrowing the performance gap between latent consistency and diffusion models. The implementation is released here: https://github.com/quandao10/sLCT/
Abstract（参考訳）: 一貫性モデルは、単一のステップまたは複数のステップで高品質なサンプルを生成することができる新しい生成モデルのファミリーである。近年,画素空間の拡散モデルに匹敵する結果が得られた。しかし、大規模なデータセット、特にテキスト・ツー・イメージやビデオ生成タスクに対する一貫性トレーニングの成功は、潜在領域のパフォーマンスによって決定される。本研究では,画素空間と潜時空間の統計的差異を分析し,潜時データが高インパルス出力の外れ値を含む場合が多く,潜時空間におけるiCTの性能は著しく低下することを示した。これを解決するために、Pseudo-Huber の損失を Cauchy の損失に置き換える。さらに,早期に拡散損失を導入し,さらに性能を高めるために最適な輸送(OT)結合を用いる。最後に、ロバストなトレーニングプロセスを管理するためのアダプティブなスケーリング-$c$スケジューラを導入し、アーキテクチャに非スケーリングのLayerNormを採用して、機能の統計をよりよく把握し、アウトリーの影響を減らす。これらの戦略により、1段階または2段階で高品質なサンプリングが可能な潜時一貫性モデルを訓練し、潜時一貫性と拡散モデルのパフォーマンスギャップを著しく狭めることができた。実装は以下の通りである。 https://github.com/quandao10/sLCT/

関連論文リスト

Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。 URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文参考訳（メタデータ） (2025-03-20T16:44:43Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Scalable Model Merging with Progressive Layer-wise Distillation [17.521794641817642]
ProDistill (Progressive Layer-wise Distillation) を導入する。 ProDistillは、視力とNLUタスクの6.14%と6.61%の改善を達成している。
論文参考訳（メタデータ） (2025-02-18T10:15:18Z)
Adaptive Non-Uniform Timestep Sampling for Diffusion Model Training [4.760537994346813]
データ分布が複雑化するにつれて、収束のためのトレーニング拡散モデルがますます複雑になる。より重要な時間ステップを優先する一様でない時間ステップサンプリング手法を提案する。提案手法は, 各種データセット, スケジューリング戦略, 拡散アーキテクチャにまたがるロバストな性能を示す。
論文参考訳（メタデータ） (2024-11-15T07:12:18Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Inverse design with conditional cascaded diffusion models [0.0]
随伴型設計最適化は通常計算コストが高く、それらのコストは分解能でスケールする。我々は、条件付きカスケード拡散モデル(cCDM)の提案により、従来の生成モデルよりも拡散モデルの利用を拡大する。本研究は,cCDMをcGANモデルと転写学習を比較した。どちらのモデルも高分解能トレーニングデータを減らすことで性能が低下するが、cCDMは訓練データに制限がある場合、伝達学習を伴うcGANモデルよりも優れる。
論文参考訳（メタデータ） (2024-08-16T04:54:09Z)
Provable Statistical Rates for Consistency Diffusion Models [87.28777947976573]
最先端の性能にもかかわらず、拡散モデルは、多くのステップが伴うため、遅いサンプル生成で知られている。本稿では, 整合性モデルに関する最初の統計理論に寄与し, 分散不整合最小化問題としてトレーニングを定式化している。
論文参考訳（メタデータ） (2024-06-23T20:34:18Z)
AdaDiff: Accelerating Diffusion Models through Step-Wise Adaptive Computation [32.74923906921339]
拡散モデルは多彩で高忠実な画像を生成する上で大きな成功を収めるが、それらの応用は本質的に遅い生成速度によって妨げられる。本稿では,拡散モデルの生成効率を向上させるために,各サンプリングステップで動的に計算資源を割り当てる適応フレームワークであるAdaDiffを提案する。
論文参考訳（メタデータ） (2023-09-29T09:10:04Z)
Robust Learning with Progressive Data Expansion Against Spurious Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-08T05:44:06Z)
Improving Adversarial Robustness by Contrastive Guided Diffusion Process [19.972628281993487]
データ生成における拡散モデルを導くために,コントラスト誘導拡散プロセス(Contrastive-Guided Diffusion Process, DP)を提案する。生成データ間の識別性の向上は, 対向的ロバスト性の向上に不可欠であることを示す。
論文参考訳（メタデータ） (2022-10-18T07:20:53Z)
Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文参考訳（メタデータ） (2021-12-10T20:46:13Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。