Fugu-MT 論文翻訳(概要): Mitigating Embedding Collapse in Diffusion Models for Categorical Data

論文の概要: Mitigating Embedding Collapse in Diffusion Models for Categorical Data

arxiv url: http://arxiv.org/abs/2410.14758v1
Date: Fri, 18 Oct 2024 09:12:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.684858
Title: Mitigating Embedding Collapse in Diffusion Models for Categorical Data
Title（参考訳）: カテゴリーデータの拡散モデルにおける埋め込み崩壊の緩和
Authors: Bac Nguyen, and Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji,
Abstract要約: 我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
参考スコア（独自算出の注目度）: 52.90687881724333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Latent diffusion models have enabled continuous-state diffusion models to handle a variety of datasets, including categorical data. However, most methods rely on fixed pretrained embeddings, limiting the benefits of joint training with the diffusion model. While jointly learning the embedding (via reconstruction loss) and the latent diffusion model (via score matching loss) could enhance performance, our analysis shows that end-to-end training risks embedding collapse, degrading generation quality. To address this issue, we introduce CATDM, a continuous diffusion framework within the embedding space that stabilizes training. We propose a novel objective combining the joint embedding-diffusion variational lower bound with a Consistency-Matching (CM) regularizer, alongside a shifted cosine noise schedule and random dropping strategy. The CM regularizer ensures the recovery of the true data distribution. Experiments on benchmarks show that CATDM mitigates embedding collapse, yielding superior results on FFHQ, LSUN Churches, and LSUN Bedrooms. In particular, CATDM achieves an FID of 6.81 on ImageNet $256\times256$ with 50 steps. It outperforms non-autoregressive models in machine translation and is on a par with previous methods in text generation.
Abstract（参考訳）: 遅延拡散モデルは、カテゴリーデータを含む様々なデータセットを扱う連続状態拡散モデルを可能にした。しかし、ほとんどの手法は固定された事前訓練された埋め込みに依存しており、拡散モデルとの共同訓練の利点を制限している。組込み学習(再構築損失)と潜伏拡散モデル(スコアマッチング損失)を併用することで性能を向上させることができるが,本分析は,エンドツーエンドのトレーニングが崩壊を埋込み,生成品質を劣化させる可能性を示唆している。この問題に対処するために,我々は,トレーニングを安定化する埋め込み空間内の連続拡散フレームワークであるCATDMを紹介した。そこで本稿では, 共振器型共振器と共振器型共振器式共振器式共振器式共振器式共振器式共振器を併用し, 共振器式共振器式共振器式共振器式共振器式共振器の共振器式と共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式共振器式 CM正規化器は真のデータ分布の回復を保証する。ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。特に、CATDMはImageNetで$256\times256$で$6.81のFIDを達成している。機械翻訳における非自己回帰モデルよりも優れており、テキスト生成における従来の手法と同等である。

関連論文リスト

Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Struggle with Adversarial Defense? Try Diffusion [8.274506117450628]
アドリア攻撃は微妙な摂動を導入して誤分類を引き起こす。拡散に基づく敵の訓練は、しばしば収束の課題と高い計算費用に遭遇する。本稿では,これらの問題を克服するために,真性最大化拡散(TMDC)を提案する。
論文参考訳（メタデータ） (2024-04-12T06:52:40Z)
Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data [74.2507346810066]
アンビエント拡散(アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散、アンビエント拡散本稿では,ノイズの多い学習データのみを考慮し,故障のない分布から確実にサンプルを採取する拡散モデルのトレーニングのための最初のフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-20T14:22:12Z)
Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文参考訳（メタデータ） (2024-03-14T12:58:28Z)
DiffClass: Diffusion-Based Class Incremental Learning [30.514281721324853]
クラスインクリメンタルラーニング(CIL)は破滅的な忘れが原因で困難である。最近の例のないCIL手法は、過去のタスクデータを合成することによって破滅的な忘れを軽減しようとする。そこで本研究では,これらの問題を克服するために,新しい非定型CIL法を提案する。
論文参考訳（メタデータ） (2024-03-08T03:34:18Z)
Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文参考訳（メタデータ） (2024-01-16T18:55:54Z)
EDA-DM: Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models [4.21216544443537]
量子化はモデルの複雑性を効果的に低減し、後学習量子化(PTQ)は拡散モデルの圧縮と加速に非常に有望である。既存の拡散モデルのPTQ法は, キャリブレーションサンプルレベルと再構成出力レベルの両方の分布ミスマッチ問題に悩まされている。本稿では,拡散モデル(EDA-DM)の学習後量子化のための分散アライメントの強化について述べる。
論文参考訳（メタデータ） (2024-01-09T14:42:49Z)
Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。 2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文参考訳（メタデータ） (2023-12-20T03:32:58Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文参考訳（メタデータ） (2023-10-06T17:11:58Z)
Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T14:14:11Z)
Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文参考訳（メタデータ） (2023-06-01T03:08:28Z)
GSURE-Based Diffusion Model Training with Corrupted Data [35.56267114494076]
本稿では, 劣化データのみに基づく生成拡散モデルのための新しいトレーニング手法を提案する。顔画像と磁気共鳴画像(MRI)の撮影技術について紹介する。
論文参考訳（メタデータ） (2023-05-22T15:27:20Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Restoration based Generative Models [0.886014926770622]
デノイング拡散モデル(DDM)は、印象的な合成品質を示すことで注目を集めている。本稿では、画像復元(IR)の観点からDDMの解釈を確立する。本稿では,前処理の柔軟性を生かして,拡散過程と比較して性能を向上するマルチスケールトレーニングを提案する。われわれのフレームワークは、新しいタイプのフレキシブル・ジェネラル・ジェネラル・ジェネレーティブ・モデルの設計の道を開いたと信じている。
論文参考訳（メタデータ） (2023-02-20T00:53:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。