論文の概要: Denoising with a Joint-Embedding Predictive Architecture
- arxiv url: http://arxiv.org/abs/2410.03755v2
- Date: Tue, 04 Feb 2025 04:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:55:23.234046
- Title: Denoising with a Joint-Embedding Predictive Architecture
- Title(参考訳): 共同組み込み予測アーキテクチャによるDenoising
- Authors: Dengsheng Chen, Jie Hu, Xiaoming Wei, Enhua Wu,
- Abstract要約: 私たちはD-JEPA(Joint-Embedding Predictive Architecture)でDenoisingを紹介します。
本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,一般化した次世代予測戦略として再解釈する。
また,拡散損失を利用して確率分布をモデル化し,連続空間におけるデータ生成を可能にする。
- 参考スコア(独自算出の注目度): 21.42513407755273
- License:
- Abstract: Joint-embedding predictive architectures (JEPAs) have shown substantial promise in self-supervised representation learning, yet their application in generative modeling remains underexplored. Conversely, diffusion models have demonstrated significant efficacy in modeling arbitrary probability distributions. In this paper, we introduce Denoising with a Joint-Embedding Predictive Architecture (D-JEPA), pioneering the integration of JEPA within generative modeling. By recognizing JEPA as a form of masked image modeling, we reinterpret it as a generalized next-token prediction strategy, facilitating data generation in an auto-regressive manner. Furthermore, we incorporate diffusion loss to model the per-token probability distribution, enabling data generation in a continuous space. We also adapt flow matching loss as an alternative to diffusion loss, thereby enhancing the flexibility of D-JEPA. Empirically, with increased GFLOPs, D-JEPA consistently achieves lower FID scores with fewer training epochs, indicating its good scalability. Our base, large, and huge models outperform all previous generative models across all scales on ImageNet conditional generation benchmarks. Beyond image generation, D-JEPA is well-suited for other continuous data modeling, including video and audio.
- Abstract(参考訳): JEPA(Joint-embedding predictive Architectures)は、自己教師付き表現学習において大きな可能性を秘めている。
逆に拡散モデルは任意の確率分布をモデル化する上で有意な効果を示した。
本稿では,JEPAをジェネレーティブ・モデリングに統合したD-JEPA(Joint-Embedding Predictive Architecture)について紹介する。
本稿では,JEPAをマスク画像モデリングの一形態として認識することにより,これを一般化した次世代予測戦略として再解釈し,自動回帰的なデータ生成を容易にする。
さらに,拡散損失を考慮した確率分布のモデル化を行い,連続空間におけるデータ生成を可能にする。
また,拡散損失の代替としてフローマッチング損失を適用し,D-JEPAの柔軟性を向上させる。
実証的には、GFLOPの増加に伴い、D-JEPAはトレーニングエポックの少ない低いFIDスコアを一貫して達成し、優れたスケーラビリティを示している。
私たちのベース、大規模、巨大なモデルは、ImageNet条件生成ベンチマークにおいて、すべてのスケールで以前の生成モデルよりも優れています。
画像生成以外にも、D-JEPAはビデオやオーディオを含む他の連続データモデリングにも適している。
関連論文リスト
- Model Integrity when Unlearning with T2I Diffusion Models [11.321968363411145]
「忘れ分布からのサンプルを特徴とする特定種類の画像の生成を減らすために、近似機械学習アルゴリズムを提案する。」
次に、既存のベースラインと比較してモデルの整合性を保つ上で優れた効果を示す未学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-04T13:15:28Z) - Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Mitigating Embedding Collapse in Diffusion Models for Categorical Data [52.90687881724333]
我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - ResEnsemble-DDPM: Residual Denoising Diffusion Probabilistic Models for
Ensemble Learning [3.2564047163418754]
本稿では,アンサンブル学習を通じて拡散モデルとエンドツーエンドモデルをシームレスに統合するResEnsemble-DDPMを提案する。
実験の結果,ResEnsemble-DDPMは既存のモデルの性能をさらに向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-04T07:14:20Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Phoenix: A Federated Generative Diffusion Model [6.09170287691728]
大規模な集中型データセットで生成モデルをトレーニングすることで、データのプライバシやセキュリティ、アクセシビリティといった面での課題が発生する可能性がある。
本稿では,フェデレートラーニング(FL)技術を用いて,複数のデータソースにまたがる拡散確率モデル(DDPM)の学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T01:43:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DiffuseVAE: Efficient, Controllable and High-Fidelity Generation from
Low-Dimensional Latents [26.17940552906923]
本稿では,拡散モデルフレームワーク内にVAEを統合する新しい生成フレームワークであるDiffuseVAEを紹介する。
提案モデルは高分解能サンプルを生成でき、標準ベンチマークの最先端モデルに匹敵する品質を示す。
論文 参考訳(メタデータ) (2022-01-02T06:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。