論文の概要: PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2505.03603v3
- Date: Sun, 11 May 2025 13:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 12:10:05.934339
- Title: PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model
- Title(参考訳): PAHA:拡散モデルを用いた部品認識型オーディオ駆動型人間アニメーション
- Authors: S. Z. Zhou, Y. B. Wang, J. F. Wu, T. Hu, J. N. Zhang, Z. J. Li, Y. Liu,
- Abstract要約: 拡散モデルを用いた音声駆動上半身アニメーションフレームワークPAHAを提案する。
本稿では、PAR(Parts-Aware Re-weighting)とPCE(Parts Consistency Enhancement)の2つの主要な手法を紹介する。
我々は,中国初の公開ニュースアンカー音声データセットであるCNASを構築し,この分野の研究と検証を進めた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-driven human animation technology is widely used in human-computer interaction, and the emergence of diffusion models has further advanced its development. Currently, most methods rely on multi-stage generation and intermediate representations, resulting in long inference time and issues with generation quality in specific foreground regions and audio-motion consistency. These shortcomings are primarily due to the lack of localized fine-grained supervised guidance. To address above challenges, we propose PAHA, an end-to-end audio-driven upper-body human animation framework with diffusion model. We introduce two key methods: Parts-Aware Re-weighting (PAR) and Parts Consistency Enhancement (PCE). PAR dynamically adjusts regional training loss weights based on pose confidence scores, effectively improving visual quality. PCE constructs and trains diffusion-based regional audio-visual classifiers to improve the consistency of motion and co-speech audio. Afterwards, we design two novel inference guidance methods for the foregoing classifiers, Sequential Guidance (SG) and Differential Guidance (DG), to balance efficiency and quality respectively. Additionally, we build CNAS, the first public Chinese News Anchor Speech dataset, to advance research and validation in this field. Extensive experimental results and user studies demonstrate that PAHA significantly outperforms existing methods in audio-motion alignment and video-related evaluations. The codes and CNAS dataset will be released upon acceptance.
- Abstract(参考訳): 音声駆動型人間アニメーション技術は人間とコンピュータの相互作用において広く使われており、拡散モデルの出現によりその発展がさらに進んでいる。
現在、ほとんどの手法は多段階生成と中間表現に依存しており、長い推論時間と特定の前景領域における生成品質とオーディオモーションの整合性に問題がある。
これらの欠点は、主に局所的なきめ細かいガイダンスがないためである。
以上の課題に対処するため,拡散モデルを用いた音声駆動上半身アニメーションフレームワークPAHAを提案する。
本稿では、PAR(Parts-Aware Re-weighting)とPCE(Parts Consistency Enhancement)の2つの主要な手法を紹介する。
PARは、ポーズ信頼度スコアに基づいて局所トレーニング損失重量を動的に調整し、視覚的品質を効果的に向上する。
PCEは拡散に基づく局所的音声視覚分類器の構築と訓練を行い、動きの一貫性と共同音声の整合性を改善する。
その後、我々は、それぞれ効率と品質のバランスをとるために、先行する分類器(Sequential Guidance (SG) とdifferial Guidance (DG) の2つの新しい推論ガイダンス手法を設計した。
また、中国初の公開ニュースアンカー音声データセットであるCNASを構築し、この分野の研究と検証を進めた。
広汎な実験結果とユーザスタディにより、PAHAは、音声モーションアライメントやビデオ関連評価において、既存の手法を著しく上回っていることが示された。
コードとCNASデータセットは受け入れ時にリリースされる。
関連論文リスト
- EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。
実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T08:19:18Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。