論文の概要: Pre-Avatar: An Automatic Presentation Generation Framework Leveraging
Talking Avatar
- arxiv url: http://arxiv.org/abs/2210.06877v1
- Date: Thu, 13 Oct 2022 10:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:09:51.062173
- Title: Pre-Avatar: An Automatic Presentation Generation Framework Leveraging
Talking Avatar
- Title(参考訳): Pre-Avatar: Talking Avatarを活用したプレゼンテーション自動生成フレームワーク
- Authors: Aolan Sun, Xulong Zhang, Tiandong Ling, Jianzong Wang, Ning Cheng,
Jing Xiao
- Abstract要約: 本稿では,プレアバター(Pre-Avatar,Pre-Avatar)と呼ばれるシステムを提案する。
システムはまずターゲット話者の声をクローンし、音声を生成し、最後に適切な唇と頭部の動きを持つアバターを生成する。
- 参考スコア(独自算出の注目度): 26.849381740519913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the beginning of the COVID-19 pandemic, remote conferencing and
school-teaching have become important tools. The previous applications aim to
save the commuting cost with real-time interactions. However, our application
is going to lower the production and reproduction costs when preparing the
communication materials. This paper proposes a system called Pre-Avatar,
generating a presentation video with a talking face of a target speaker with 1
front-face photo and a 3-minute voice recording. Technically, the system
consists of three main modules, user experience interface (UEI), talking face
module and few-shot text-to-speech (TTS) module. The system firstly clones the
target speaker's voice, and then generates the speech, and finally generate an
avatar with appropriate lip and head movements. Under any scenario, users only
need to replace slides with different notes to generate another new video. The
demo has been released here and will be published as free software for use.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックが始まって以来、遠隔会議や学校教育が重要なツールとなっている。
以前のアプリケーションは、リアルタイムインタラクションによる通勤コストの削減を目的としていた。
しかし,本アプリケーションでは,通信資料作成時の生産コストと再生コストを下げる。
本稿では,1枚の正面写真と3分間の音声記録を備えた話者の発話面を用いたプレゼンテーションビデオを生成するpre-avatarというシステムを提案する。
技術的には、このシステムは3つの主要なモジュール、ユーザエクスペリエンスインタフェース(UEI)、会話顔モジュール、音声テキスト合成(TTS)モジュールから構成される。
システムはまずターゲット話者の声をクローンし、音声を生成し、最後に適切な唇と頭部の動きを持つアバターを生成する。
どんなシナリオでも、ユーザーはスライドを別の新しいビデオを生成するために異なるメモで置き換える必要がある。
デモはここでリリースされ、無料で使えるソフトウェアとして公開される予定だ。
関連論文リスト
- AV-Flow: Transforming Text to Audio-Visual Human-like Interactions [101.31009576033776]
AV-Flowは、テキスト入力のみを与えられた写真リアリスティックな4D音声アバターを識別するオーディオ視覚生成モデルである。
人間の音声合成, 唇の動きの同期, 表情の鮮やかさ, 頭ポーズを実演した。
論文 参考訳(メタデータ) (2025-02-18T18:56:18Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - PMMTalk: Speech-Driven 3D Facial Animation from Complementary Pseudo
Multi-modal Features [22.31865247379668]
音声駆動の3D顔アニメーションは、最近大幅に改善されている。
関連作品の多くは音響的モダリティのみを利用しており、視覚的・テキスト的手がかりの影響を無視している。
顔アニメーションの精度を向上させるために,Pseudo Multi-Modal 機能を用いた新しいフレームワーク PMMTalk を提案する。
論文 参考訳(メタデータ) (2023-12-05T14:12:38Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Real-time Gesture Animation Generation from Speech for Virtual Human
Interaction [9.453554184019108]
音声から直接ジェスチャーを合成するリアルタイムシステムを提案する。
データ駆動型アプローチは、ジェネレーティブ・アドバイサル・ニューラル・ニューラルネットワークに基づいている。
モデルは2秒間の連続的な音声入力チャンクを受信することで、話者固有のジェスチャーを生成する。
論文 参考訳(メタデータ) (2022-08-05T15:56:34Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - AnyoneNet: Synchronized Speech and Talking Head Generation for Arbitrary
Person [21.126759304401627]
本稿では,テキストと任意の人物の顔画像を入力として,同期音声とトーキングヘッド映像を自動生成する手法を提案する。
実験の結果,提案手法は任意の人や非人に対して,同期音声と音声のヘッドビデオを生成することができることがわかった。
論文 参考訳(メタデータ) (2021-08-09T19:58:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。