論文の概要: InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation
- arxiv url: http://arxiv.org/abs/2405.15758v1
- Date: Fri, 24 May 2024 17:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 12:51:30.744404
- Title: InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation
- Title(参考訳): InstructAvatar:アバター生成のためのテキストガイド型感情制御
- Authors: Yuchi Wang, Junliang Guo, Jianhong Bai, Runyi Yu, Tianyu He, Xu Tan, Xu Sun, Jiang Bian,
- Abstract要約: 本稿では,感情表現型2Dアバターを生成するための新しいテキスト誘導手法を提案する。
我々のフレームワークであるInstructAvatarは、自然言語インタフェースを利用して感情やアバターの顔の動きを制御します。
実験結果から,InstructAvatarは両条件とも良好に一致した結果が得られた。
- 参考スコア(独自算出の注目度): 39.235962838952624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent talking avatar generation models have made strides in achieving realistic and accurate lip synchronization with the audio, but often fall short in controlling and conveying detailed expressions and emotions of the avatar, making the generated video less vivid and controllable. In this paper, we propose a novel text-guided approach for generating emotionally expressive 2D avatars, offering fine-grained control, improved interactivity, and generalizability to the resulting video. Our framework, named InstructAvatar, leverages a natural language interface to control the emotion as well as the facial motion of avatars. Technically, we design an automatic annotation pipeline to construct an instruction-video paired training dataset, equipped with a novel two-branch diffusion-based generator to predict avatars with audio and text instructions at the same time. Experimental results demonstrate that InstructAvatar produces results that align well with both conditions, and outperforms existing methods in fine-grained emotion control, lip-sync quality, and naturalness. Our project page is https://wangyuchi369.github.io/InstructAvatar/.
- Abstract(参考訳): 最近の音声アバター生成モデルは、現実的で正確な唇の同期を実現するために進歩してきたが、しばしばアバターの詳細な表情や感情を制御・伝達するのに不足しており、生成された映像は鮮明で制御しにくくなっている。
本稿では,感情表現型2Dアバターを生成するためのテキスト誘導方式を提案する。
我々のフレームワークであるInstructAvatarは、自然言語インタフェースを利用して感情やアバターの顔の動きを制御します。
技術的には、音声とテキストによるアバターの予測を同時に行う新しい2分岐拡散ベースジェネレータを備えた、命令ビデオペアトレーニングデータセットを構築するための自動アノテーションパイプラインを設計する。
実験結果から,InstructAvatarは両条件とも良好に一致し,感情制御,リップシンク品質,自然性などの既存手法よりも優れることがわかった。
私たちのプロジェクトページはhttps://wangyuchi369.github.io/InstructAvatar/です。
関連論文リスト
- TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model [100.35665852159785]
本研究では,SpeaKing Avatar Reenactment (TALK-Act) フレームワークのためのMotion-Enhanced Textural-Aware ModeLingを提案する。
我々のキーとなる考え方は、拡散モデルにおける明示的な動き誘導によるテクスチャ認知を高めることである。
本モデルは,30秒の個人データのみを用いて,高忠実度2次元アバター再現を実現する。
論文 参考訳(メタデータ) (2024-10-14T16:38:10Z) - TextToon: Real-Time Text Toonify Head Avatar from Single Video [34.07760625281835]
乾燥可能なトーン化アバターを生成するためのTextToonを提案する。
短い単眼ビデオシーケンスとアバタースタイルに関する命令が与えられた場合,本モデルは高忠実度トーン化アバターを生成することができる。
論文 参考訳(メタデータ) (2024-09-23T15:04:45Z) - AvatarStudio: High-fidelity and Animatable 3D Avatar Creation from Text [71.09533176800707]
アバターストゥディオ(AvatarStudio)は、アニマタブルな人間のアバターのために、明瞭なテクスチャ化された3Dメッシュを生成する粗大で微細な生成モデルである。
調音メッシュ表現とDensePose条件拡散モデルとの相乗効果を効果的に活用することにより、AvatarStudioは高品質なアバターを作成することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:32Z) - GAIA: Zero-shot Talking Avatar Generation [64.78978434650416]
GAIA(Generative AI for Avatar)を導入し、会話アバター生成におけるドメインの先行性を排除した。
GAIAは、自然性、多様性、リップシンク品質、視覚的品質の点で、これまでのベースラインモデルを上回っている。
汎用的で、制御可能な音声アバター生成やテキストインストラクションされたアバター生成など、さまざまなアプリケーションを可能にする。
論文 参考訳(メタデータ) (2023-11-26T08:04:43Z) - AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation [14.062402203105712]
AvatarBoothはテキストプロンプトや特定の画像を使って高品質な3Dアバターを生成する新しい方法である。
我々の重要な貢献は、二重微調整拡散モデルを用いた正確なアバター生成制御である。
本稿では,3次元アバター生成の粗大な監視を容易にするマルチレゾリューションレンダリング戦略を提案する。
論文 参考訳(メタデータ) (2023-06-16T14:18:51Z) - Emotional Speech-Driven Animation with Content-Emotion Disentanglement [51.34635009347183]
本研究では,感情表現の明示的な制御を可能にしつつ,音声からリップシンクを維持する3次元音声アバターを生成するEMOTEを提案する。
EmOTEは、同じデータでトレーニングされた最先端の方法よりも、リップシンクで音声駆動の顔アニメーションを生成する。
論文 参考訳(メタデータ) (2023-06-15T09:31:31Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - READ Avatars: Realistic Emotion-controllable Audio Driven Avatars [11.98034899127065]
本稿では、感情を直接制御したオーディオ入力によって駆動される2次元アバターを生成するための3次元アプローチであるREAD Avatarsを提案する。
従来の手法では、音声から表現マッピングへの多対多の性質のため、現実的なアニメーションを達成できない。
これは回帰モデルによる滑らかな効果を排除し、生成されたアバターの現実性と表現性を改善するのに役立つ。
論文 参考訳(メタデータ) (2023-03-01T18:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。