Fugu-MT 論文翻訳(概要): ACT: Adversarial Consistency Models

論文の概要: ACT: Adversarial Consistency Models

arxiv url: http://arxiv.org/abs/2311.14097v2
Date: Tue, 30 Jan 2024 19:32:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 17:15:08.236575
Title: ACT: Adversarial Consistency Models
Title（参考訳）: ACT: 敵対的一貫性モデル
Authors: Fei Kong, Jinhao Duan, Lichao Sun, Hao Cheng, Renjing Xu, Hengtao Shen, Xiaofeng Zhu, Xiaoshuang Shi, Kaidi Xu
Abstract要約: 整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。 CIFAR10, ImageNet 64$times$64, LSUN Cat 256$times$256データセットにおけるFIDスコアの改善を実現した。
参考スコア（独自算出の注目度）: 62.16255121164223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Though diffusion models excel in image generation, their step-by-step denoising leads to slow generation speeds. Consistency training addresses this issue with single-step sampling but often produces lower-quality generations and requires high training costs. In this paper, we show that optimizing consistency training loss minimizes the Wasserstein distance between target and generated distributions. As timestep increases, the upper bound accumulates previous consistency training losses. Therefore, larger batch sizes are needed to reduce both current and accumulated losses. We propose Adversarial Consistency Training (ACT), which directly minimizes the Jensen-Shannon (JS) divergence between distributions at each timestep using a discriminator. Theoretically, ACT enhances generation quality, and convergence. By incorporating a discriminator into the consistency training framework, our method achieves improved FID scores on CIFAR10, ImageNet 64$\times$64 and LSUN Cat 256$\times$256 datasets, retains zero-shot image inpainting capabilities, and uses less than $1/6$ of the original batch size and fewer than $1/2$ of the model parameters and training steps compared to the baseline method, this leads to a substantial reduction in resource consumption.
Abstract（参考訳）: 拡散モデルは画像生成に優れているが、ステップバイステップのデノージングは生成速度を遅くする。一貫性トレーニングは、単一ステップサンプリングでこの問題に対処するが、しばしば低品質世代を生成し、高いトレーニングコストを必要とする。本稿では,目標分布と生成分布との間のwasserstein距離を最小化する一貫性トレーニング損失の最適化について述べる。時間ステップが増加すると、上限は以前の一貫性トレーニング損失を蓄積する。そのため、電流と累積損失を減らすために、より大きなバッチサイズが必要となる。本稿では,判別器を用いて,各時刻における分布間のJensen-Shannon(JS)ばらつきを極力最小化するAdversarial Consistency Training(ACT)を提案する。理論的には、ACTは生成品質と収束を高める。一貫性トレーニングフレームワークに識別器を組み込むことにより、cifar10、imagenet 64$\times$64およびlsun cat 256$\times$256データセットのfidスコアを改善し、ゼロショット画像インペインティング能力を保持し、元のバッチサイズの1/6$以下、モデルパラメータとトレーニングステップの1/2$以下を使用することにより、リソース消費を大幅に削減することができる。

関連論文リスト

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards [52.90573877727541]
拡散モデル微調整では強化学習(RL)が検討されている。 RLの有効性はスパース報酬の挑戦によって制限される。 $textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
論文参考訳（メタデータ） (2025-03-14T09:45:19Z)
Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.229753357571116]
トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-09T15:53:49Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文参考訳（メタデータ） (2024-10-18T22:38:08Z)
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文参考訳（メタデータ） (2024-07-22T17:23:28Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文参考訳（メタデータ） (2024-03-19T17:34:27Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文参考訳（メタデータ） (2023-10-22T05:33:38Z)
Efficient Diffusion Training via Min-SNR Weighting Strategy [78.5801305960993]
拡散学習をマルチタスク学習問題として扱い,Min-SNR-$gamma$と呼ばれるシンプルなアプローチを導入する。本結果は,従来の重み付け手法よりも3.4$times$高速で収束速度が大幅に向上したことを示す。さらに効果的で、ImageNetの256times256$ベンチマークで2.06の新たなFIDスコアを達成した。
論文参考訳（メタデータ） (2023-03-16T17:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。