論文の概要: SentiAvatar: Towards Expressive and Interactive Digital Humans
- arxiv url: http://arxiv.org/abs/2604.02908v1
- Date: Fri, 03 Apr 2026 09:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.427025
- Title: SentiAvatar: Towards Expressive and Interactive Digital Humans
- Title(参考訳): SentiAvatar: 表現的でインタラクティブなデジタル人間を目指して
- Authors: Chuhao Jin, Rui Zhang, Qingzhe Gao, Haoyu Shi, Dayu Wu, Yichen Jiang, Yihan Wu, Ruihua Song,
- Abstract要約: SentiAvatarは、表現力のあるインタラクティブな3Dデジタル人間を構築するためのフレームワークである。
SuSuは、会話、ジェスチャー、およびEmoteをリアルタイムで作成する仮想キャラクタです。
- 参考スコア(独自算出の注目度): 34.87007260601306
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present SentiAvatar, a framework for building expressive interactive 3D digital humans, and use it to create SuSu, a virtual character that speaks, gestures, and emotes in real time. Achieving such a system remains challenging, as it requires jointly addressing three key problems: the lack of large-scale, high-quality multimodal data, robust semantic-to-motion mapping, and fine-grained frame-level motion-prosody synchronization. To solve these problems, first, we build SuSuInterActs (21K clips, 37 hours), a dialogue corpus captured via optical motion capture around a single character with synchronized speech, full-body motion, and facial expressions. Second, we pre-train a Motion Foundation Model on 200K+ motion sequences, equipping it with rich action priors that go well beyond the conversation. We then propose an audio-aware plan-then-infill architecture that decouples sentence-level semantic planning from frame-level prosody-driven interpolation, so that generated motions are both semantically appropriate and rhythmically aligned with speech. Experiments show that SentiAvatar achieves state-of-the-art on both SuSuInterActs (R@1 43.64%, nearly 2 times the best baseline) and BEATv2 (FGD 4.941, BC 8.078), producing 6s of output in 0.3s with unlimited multi-turn streaming. The source code, model, and dataset are available at https://sentiavatar.github.io.
- Abstract(参考訳): 我々は、表現力のあるインタラクティブな3Dデジタル人間を構築するためのフレームワークであるSentiAvatarを紹介し、SuSuの作成に利用した。
このようなシステムを実現するには、大規模で高品質なマルチモーダルデータの欠如、ロバストなセマンティック・トゥ・モーションマッピング、きめ細かいフレームレベルのモーションプロソディ同期の3つの重要な問題に共同で対処する必要があるため、依然として困難である。
これらの問題を解決するために,まず,1文字あたりの光学的モーションキャプチャによる対話コーパスであるSuSuInterActs(21Kクリップ,37時間)を構築した。
第二に、200K以上のモーションシーケンスでMotion Foundation Modelを事前訓練し、会話をはるかに超越したリッチなアクションプリエントを装備します。
次に、フレームレベルの韻律駆動補間から文レベルのセマンティックプランニングを分離し、生成した動きが意味的に適切かつリズム的に音声に整合するように、音声対応のプラン-then-infillアーキテクチャを提案する。
実験の結果、SentiAvatarはSuInterActs(R@1 43.64%、最高のベースラインのほぼ2倍)とBEATv2(FGD 4.941、BC 8.078)の両方で最先端を実現し、無制限のマルチターンストリーミングで0.3秒で出力の6秒を生成することがわかった。
ソースコード、モデル、データセットはhttps://sentiavatar.github.io.comで入手できる。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - A$^2$-LLM: An End-to-end Conversational Audio Avatar Large Language Model [39.89874984616492]
A$2$-LLMは、言語、音声の韻律、および3D顔の動きを統一されたフレームワーク内で説明するエンドツーエンドの音声アバターモデルである。
深いセマンティック理解により、A$2$-LLMは単純な唇同期以上の感情的に豊かな顔の動きを生成する。
論文 参考訳(メタデータ) (2026-02-04T02:19:46Z) - StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation [29.41106195298283]
既存のビデオアバターモデルは、流動的な人間のアニメーションを作り出すことができるが、キャラクターの真の本質を捉えるために、単なる物理的類似性を超えて動くのに苦労している。
textbfweは、物理的に妥当なだけでなく、意味的に一貫性があり表現力のあるキャラクターアニメーションを生成するために設計されたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:15:26Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - EmotionGesture: Audio-Driven Diverse Emotional Co-Speech 3D Gesture
Generation [24.547098909937034]
EmotionGestureは、オーディオから、鮮明で多様な感情的な3Dジェスチャーを合成するための新しいフレームワークである。
我々のフレームワークは最先端の3Dジェスチャーよりも優れており、鮮明で多様な感情的な3Dジェスチャーを実現している。
論文 参考訳(メタデータ) (2023-05-30T09:47:29Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。