論文の概要: Hierarchical Semantic Perceptual Listener Head Video Generation: A
High-performance Pipeline
- arxiv url: http://arxiv.org/abs/2307.09821v1
- Date: Wed, 19 Jul 2023 08:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:58:57.851996
- Title: Hierarchical Semantic Perceptual Listener Head Video Generation: A
High-performance Pipeline
- Title(参考訳): 階層的意味知覚リスナヘッドビデオ生成:ハイパフォーマンスパイプライン
- Authors: Zhigang Chang, Weitai Hu, Qing Yang, Shibao Zheng
- Abstract要約: ViCo@2023 ACM Multimedia 2023 Conferenceにおける会話型ヘッドジェネレーションチャレンジ
本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。
- 参考スコア(独自算出の注目度): 6.9329709955764045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In dyadic speaker-listener interactions, the listener's head reactions along
with the speaker's head movements, constitute an important non-verbal semantic
expression together. The listener Head generation task aims to synthesize
responsive listener's head videos based on audios of the speaker and reference
images of the listener. Compared to the Talking-head generation, it is more
challenging to capture the correlation clues from the speaker's audio and
visual information. Following the ViCo baseline scheme, we propose a
high-performance solution by enhancing the hierarchical semantic extraction
capability of the audio encoder module and improving the decoder part, renderer
and post-processing modules. Our solution gets the first place on the official
leaderboard for the track of listening head generation. This paper is a
technical report of ViCo@2023 Conversational Head Generation Challenge in ACM
Multimedia 2023 conference.
- Abstract(参考訳): Dyadic Speaker-listener 相互作用では、リスナーの頭部反応と話者の頭部の動きは、重要な非言語的意味表現を構成する。
リスナーヘッド生成タスクは、スピーカの音声とリスナーの参照画像に基づいて、応答性のあるリスナーのヘッドビデオを合成することを目的としている。
トーキングヘッド生成と比較して,話者の音声や視覚情報からの相関手がかりを捉えることがより困難である。
vicoのベースラインスキームに従って,オーディオエンコーダモジュールの階層的意味抽出能力を高め,デコーダ部分,レンダラ,後処理モジュールを改善することにより,高性能なソリューションを提案する。
私たちのソリューションは、ヘッドジェネレーションを聴くための公式のリーダーボードで第一位を獲得します。
本稿は、ACM Multimedia 2023 conferenceにおけるViCo@2023 Conversational Head Generation Challengeのテクニカルレポートである。
関連論文リスト
- INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations [11.101103116878438]
本稿では,Dyadic インタラクションのための新しい音声駆動型ヘッド生成フレームワーク INFP を提案する。
INFPは、モーションベースヘッドイミテーションステージとオーディオガイドモーションジェネレーションステージで構成される。
このような研究を円滑に進めるために,インターネットから収集したリッチな対話の大規模データセットであるDyConvを紹介した。
論文 参考訳(メタデータ) (2024-12-05T10:20:34Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Modeling Speaker-Listener Interaction for Backchannel Prediction [24.52345279975304]
バックチャネル理論は、会話の過程でリスナーの活発で継続的な役割を強調する。
話者音声から音響特徴を処理し,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
SwitchboardとGECOデータセットの実験結果は、ほぼすべてのテストシナリオにおいて、話者またはリスナーの振る舞いの埋め込みが、モデルがより正確なバックチャネル予測を行うのに役立つことを示している。
論文 参考訳(メタデータ) (2023-04-10T09:22:06Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - Perceptual Conversational Head Generation with Regularized Driver and
Enhanced Renderer [4.201920674650052]
我々のソリューションは、正規化と高い視覚的品質の組み立てにより、一般化されたオーディオ・ツー・ヘッドドライバを訓練することに焦点を当てている。
公式ランキングでは、聴取ヘッド生成トラックで1位、話しヘッド生成トラックで2位となる。
論文 参考訳(メタデータ) (2022-06-26T10:12:59Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis [55.24336227884039]
高忠実な会話ヘッドビデオを生成するための新しいフレームワークを紹介します。
音声入力と映像出力のギャップを埋めるために,ニューラルシーン表現ネットワークを用いる。
本フレームワークは,(1)高い忠実度と自然な結果を生み出すことができ,(2)音声信号,視線方向,背景画像の自由な調整をサポートする。
論文 参考訳(メタデータ) (2021-03-20T02:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。