論文の概要: Discrete Contrastive Diffusion for Cross-Modal and Conditional
Generation
- arxiv url: http://arxiv.org/abs/2206.07771v1
- Date: Wed, 15 Jun 2022 19:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 15:01:35.107380
- Title: Discrete Contrastive Diffusion for Cross-Modal and Conditional
Generation
- Title(参考訳): クロスモーダル生成と条件生成のための離散的コントラスト拡散
- Authors: Ye Zhu, Yu Wu, Kyle Olszewski, Jian Ren, Sergey Tulyakov, Yan Yan
- Abstract要約: 条件合成におけるキーデシプラタムは、条件付け入力と生成された出力との間の高い対応を達成することである。
コントラスト学習を用いた相互情報の最大化により、入出力接続を向上させる。
本稿では,3つの多モード条件合成タスクを用いた評価において,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 40.45415113750047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion probabilistic models (DPMs) have become a popular approach to
conditional generation, due to their promising results and support for
cross-modal synthesis. A key desideratum in conditional synthesis is to achieve
high correspondence between the conditioning input and generated output. Most
existing methods learn such relationships implicitly, by incorporating the
prior into the variational lower bound. In this work, we take a different route
-- we enhance input-output connections by maximizing their mutual information
using contrastive learning. To this end, we introduce a Conditional Discrete
Contrastive Diffusion (CDCD) loss and design two contrastive diffusion
mechanisms to effectively incorporate it into the denoising process. We
formulate CDCD by connecting it with the conventional variational objectives.
We demonstrate the efficacy of our approach in evaluations with three diverse,
multimodal conditional synthesis tasks: dance-to-music generation,
text-to-image synthesis, and class-conditioned image synthesis. On each, we
achieve state-of-the-art or higher synthesis quality and improve the
input-output correspondence. Furthermore, the proposed approach improves the
convergence of diffusion models, reducing the number of required diffusion
steps by more than 35% on two benchmarks, significantly increasing the
inference speed.
- Abstract(参考訳): 拡散確率モデル(DPM)は,その有望な結果とクロスモーダル合成のサポートにより,条件生成に対する一般的なアプローチとなっている。
条件合成におけるキーデシプラタムは、条件付け入力と生成された出力との間の高い対応を達成することである。
ほとんどの既存手法は、前項を変分下限に組み込むことで、暗黙的にそのような関係を学習する。
本研究では,コントラスト学習を用いて相互情報を最大化することにより,入力出力接続を強化する。
この目的のために,条件付き離散的コントラスト拡散(cdcd)損失を導入し,2つのコントラスト拡散機構の設計を行い,それをデノージングプロセスに効果的に組み込む。
我々はCDCDを従来の変分目的と結びつけて定式化する。
提案手法は,ダンス・ツー・ミュージック生成,テキスト・ツー・イメージ合成,クラス・コンディショナル・イメージ合成という3つの多様な条件付き合成タスクを用いた評価において有効であることを示す。
それぞれ、最先端または高い合成品質を実現し、入力出力対応を改善する。
さらに,提案手法は拡散モデルの収束を改善し,必要な拡散ステップ数を2つのベンチマークで35%以上削減し,推論速度を大幅に向上させる。
関連論文リスト
- InterHandGen: Two-Hand Interaction Generation via Cascaded Reverse Diffusion [53.90516061351706]
両手インタラクションに先立って生成を学習する新しいフレームワークであるInterHandGenを提案する。
サンプリングにアンチペネティフィケーションと合成フリーガイダンスを組み合わせることで、プラウシブルな生成を可能にする。
本手法は, 妥当性と多様性の観点から, ベースライン生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-03-26T06:35:55Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - BOSS: Bidirectional One-Shot Synthesis of Adversarial Examples [8.359029046999233]
本稿では,逆数例のワンショット合成を提案する。
入力はスクラッチから合成され、事前訓練されたモデルの出力で任意のソフト予測を誘導する。
本稿では,本フレームワークの汎用性と汎用性を示す。
論文 参考訳(メタデータ) (2021-08-05T17:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。