論文の概要: Generating, Reconstructing, and Representing Discrete and Continuous
Data: Generalized Diffusion with Learnable Encoding-Decoding
- arxiv url: http://arxiv.org/abs/2402.19009v1
- Date: Thu, 29 Feb 2024 10:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:26:52.409381
- Title: Generating, Reconstructing, and Representing Discrete and Continuous
Data: Generalized Diffusion with Learnable Encoding-Decoding
- Title(参考訳): 離散データと連続データの生成・再構成・表現:学習可能なエンコーディング・デコーディングによる一般化拡散
- Authors: Guangyi Liu, Yu Wang, Zeyu Feng, Qiyu Wu, Liping Tang, Yuan Gao, Zhen
Li, Shuguang Cui, Julian McAuley, Eric P. Xing, Zichao Yang, Zhiting Hu
- Abstract要約: 学習可能なエンコーダデコーダ(DiLED)による一般化拡散を導入する。
DiLEDはパラメタライズされた符号化復号を導入することにより、標準拡散におけるガウス雑音化を一般化する。
テキスト、タンパク質、画像の実験では、多様なデータやタスクを扱うためのDiLEDの柔軟性が示されている。
- 参考スコア(独自算出の注目度): 93.21419651109322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vast applications of deep generative models are anchored in three core
capabilities -- generating new instances, reconstructing inputs, and learning
compact representations -- across various data types, such as discrete
text/protein sequences and continuous images. Existing model families, like
Variational Autoencoders (VAEs), Generative Adversarial Networks (GANs),
autoregressive models, and diffusion models, generally excel in specific
capabilities and data types but fall short in others. We introduce generalized
diffusion with learnable encoder-decoder (DiLED), that seamlessly integrates
the core capabilities for broad applicability and enhanced performance. DiLED
generalizes the Gaussian noising-denoising in standard diffusion by introducing
parameterized encoding-decoding. Crucially, DiLED is compatible with the
well-established diffusion model objective and training recipes, allowing
effective learning of the encoder-decoder parameters jointly with diffusion. By
choosing appropriate encoder/decoder (e.g., large language models), DiLED
naturally applies to different data types. Extensive experiments on text,
proteins, and images demonstrate DiLED's flexibility to handle diverse data and
tasks and its strong improvement over various existing models.
- Abstract(参考訳): 深層生成モデルの膨大な応用は、3つのコア機能 – 新しいインスタンスの生成、インプットの再構築、コンパクト表現の学習 – に固定されている。
既存のモデルファミリ(VAE)、GAN(Generative Adversarial Networks)、自己回帰モデル、拡散モデルなど)は、一般的に特定の機能やデータタイプに優れているが、他では不足している。
学習可能なエンコーダデコーダ(DiLED)による一般化拡散を導入し,広い適用性と性能向上のためのコア機能をシームレスに統合する。
DiLEDはパラメタライズされた符号化復号を導入することにより、標準拡散におけるガウス雑音化を一般化する。
diledは、十分に確立された拡散モデル目的とトレーニングレシピと互換性があり、エンコーダ-デコーダパラメータを拡散と共に効果的に学習することができる。
適切なエンコーダ/デコーダ(例えば大きな言語モデル)を選択することで、DiLEDは自然に異なるデータ型に適用できる。
テキスト、タンパク質、画像に関する広範な実験は、diledの多様なデータやタスクを扱う柔軟性と、既存の様々なモデルに対する強力な改善を示している。
関連論文リスト
- Neural Network Diffusion [50.85251415173792]
拡散モデルは画像生成やビデオ生成において顕著な成功を収めた。
本研究は拡散モデルにも適用可能であることを示す。
高性能なニューラルネットワークパラメータを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - SALAD: Part-Level Latent Diffusion for 3D Shape Generation and
Manipulation [10.478729083130366]
部分レベルの暗黙的3次元表現に基づくカスケード拡散モデルを提案する。
提案モデルでは,最先端の生成品質を実現し,条件付き設定での付加的なトレーニングを伴わずに,部分レベルの形状の編集と操作が可能となる。
論文 参考訳(メタデータ) (2023-03-21T23:43:58Z) - Latent Diffusion for Language Generation [26.620353485679892]
言語への拡散を適応しようとする最近の試みは、既存の言語モデルの代替として拡散を提示している。
我々は,エンコーダ-デコーダ言語モデルを用いて,高品質なオートエンコーダを効率的に学習できることを実証した。
非条件, クラス条件, シーケンス・ツー・シーケンス言語生成に対する提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-19T13:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。