論文の概要: Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios
- arxiv url: http://arxiv.org/abs/2410.20359v2
- Date: Fri, 01 Nov 2024 09:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:44.591382
- Title: Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios
- Title(参考訳): 音声からの効率的なグローバルジェスチャ生成における拡散モデル強化のための条件付きGAN
- Authors: Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu,
- Abstract要約: VAEに基づく手法には、局所的なジッタとグローバルな不安定性の問題が伴う。
本稿では,音声制御信号を捕捉し,拡散段差と発声段差の多モーダル denoising 分布を暗黙的に一致させる条件付き GAN を提案する。
- 参考スコア(独自算出の注目度): 10.57695963534794
- License:
- Abstract: Audio-driven simultaneous gesture generation is vital for human-computer communication, AI games, and film production. While previous research has shown promise, there are still limitations. Methods based on VAEs are accompanied by issues of local jitter and global instability, whereas methods based on diffusion models are hampered by low generation efficiency. This is because the denoising process of DDPM in the latter relies on the assumption that the noise added at each step is sampled from a unimodal distribution, and the noise values are small. DDIM borrows the idea from the Euler method for solving differential equations, disrupts the Markov chain process, and increases the noise step size to reduce the number of denoising steps, thereby accelerating generation. However, simply increasing the step size during the step-by-step denoising process causes the results to gradually deviate from the original data distribution, leading to a significant drop in the quality of the generated actions and the emergence of unnatural artifacts. In this paper, we break the assumptions of DDPM and achieves breakthrough progress in denoising speed and fidelity. Specifically, we introduce a conditional GAN to capture audio control signals and implicitly match the multimodal denoising distribution between the diffusion and denoising steps within the same sampling step, aiming to sample larger noise values and apply fewer denoising steps for high-speed generation.
- Abstract(参考訳): 人間のコンピュータ通信、AIゲーム、映画制作において、音声駆動の同時ジェスチャー生成は不可欠である。
これまでの研究は有望だったが、まだ限界がある。
VAEに基づく手法は局所ジッタとグローバル不安定の問題を伴い,拡散モデルに基づく手法は低生成効率によって妨げられる。
これは、DDPMの雑音発生過程が、各ステップで加算されたノイズが単調分布からサンプリングされ、ノイズ値が小さいという仮定に依存しているためである。
DDIMは微分方程式の解法であるオイラー法からアイデアを借用し、マルコフ連鎖過程を乱し、ノイズステップのサイズを増大させ、デノナイジングステップの数を減少させ、生成を加速させる。
しかし, ステップ・バイ・ステップ・バイ・ステップ・デノゲーション・プロセスにおいて, ステップ・バイ・ステップ・デノゲーション・プロセスにおけるステップ・サイズの増加は, 結果が元のデータ分布から徐々に逸脱する原因となり, 生成したアクションの品質が著しく低下し, 不自然なアーティファクトが出現する。
本稿では,DDPMの仮定を破り,速度と忠実度を劣化させる画期的な進歩を実現する。
具体的には、音声制御信号を捕捉し、同じサンプリングステップ内で拡散と復調ステップ間のマルチモーダルな復調分布を暗黙的に一致させる条件付きGANを導入し、より大きなノイズ値をサンプリングし、高速な生成のためにより少ない復調ステップを適用することを目的とする。
関連論文リスト
- Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy [44.09909260046396]
雑音発生過程における雑音予測のステップを削減するための適応拡散法を提案する。
提案手法は, 最大25倍の速度アップを達成し, 元の処理と同一の処理結果を生成するとともに, デノナイズ処理を著しく高速化することができる。
論文 参考訳(メタデータ) (2024-10-13T15:19:18Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep
Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - SVNR: Spatially-variant Noise Removal with Denoising Diffusion [43.2405873681083]
本稿では,より現実的で空間的変動のある雑音モデルを想定した,微分拡散の新たな定式化について述べる。
実験では,強い拡散モデルベースラインに対するアプローチの利点と,最先端の単一画像復号法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-28T09:32:00Z) - Semi-Implicit Denoising Diffusion Models (SIDDMs) [50.30163684539586]
Denoising Diffusion Probabilistic Models (DDPM)のような既存のモデルは、高品質で多様なサンプルを提供するが、本質的に多くの反復的なステップによって遅くなる。
暗黙的要因と明示的要因を一致させることにより、この問題に対処する新しいアプローチを導入する。
提案手法は拡散モデルに匹敵する生成性能と,少数のサンプリングステップを持つモデルに比較して非常に優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T18:49:22Z) - Parallel Sampling of Diffusion Models [76.3124029406809]
拡散モデルは強力な生成モデルであるが、サンプリングが遅い。
そこで本研究では,複数のステップを並列にdenoisingすることで,事前学習した拡散モデルのサンプリングを高速化するParaDiGMSを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:59:42Z) - Accelerating Diffusion Models via Early Stop of the Diffusion Process [114.48426684994179]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な世代タスクにおいて優れたパフォーマンスを実現している。
実際には、DDPMは高品質なサンプルを得るために何十万ものデノナイジングステップを必要とすることが多い。
本稿では,DDPMの早期停止型DDPM(Early-Stopped DDPM, ES-DDPM)の原理的高速化戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T06:40:09Z) - Denoising Distantly Supervised Named Entity Recognition via a
Hypergeometric Probabilistic Model [26.76830553508229]
ハイパージオメトリ・ラーニング(HGL)は、遠距離教師付きエンティティ認識のための認知アルゴリズムである。
HGLはノイズ分布とインスタンスレベルの信頼性の両方を考慮に入れている。
実験により、HGLは遠方の監督から取得した弱いラベル付きデータを効果的に復調できることが示された。
論文 参考訳(メタデータ) (2021-06-17T04:01:25Z) - Knowledge Distillation in Iterative Generative Models for Improved
Sampling Speed [0.0]
ノイズ条件スコアネットワークなどの反復生成モデルは、初期雑音ベクトルを徐々にデノベートすることで高品質なサンプルを生成する。
知識蒸留と画像生成の新たな関連性を確立し,多段階の認知過程を単一のステップに蒸留する手法を提案する。
我々のDenoising Studentsは、CIFAR-10とCelebAデータセットのGANに匹敵する高品質なサンプルを生成する。
論文 参考訳(メタデータ) (2021-01-07T06:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。