論文の概要: Hi-Reco: High-Fidelity Real-Time Conversational Digital Humans
- arxiv url: http://arxiv.org/abs/2511.12662v1
- Date: Sun, 16 Nov 2025 15:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.432577
- Title: Hi-Reco: High-Fidelity Real-Time Conversational Digital Humans
- Title(参考訳): Hi-Reco:高忠実なリアルタイム会話型デジタル人間
- Authors: Hongbin Huang, Junwei Li, Tianxin Xie, Zhuang Li, Cekai Weng, Yaodong Yang, Yue Luo, Li Liu, Jing Tang, Zhijing Shao, Zeyu Wang,
- Abstract要約: 本稿では,高忠実でリアルタイムな対話型デジタルヒューマンシステムを提案する。
視覚的にリアルな3Dアバター、ペルソナ駆動の表現型音声合成、知識に基づく対話生成を組み合わせる。
このシステムは、ウェイクワードの検出、感情表現型韻律、高度に正確な文脈認識応答生成などの高度な機能をサポートしている。
- 参考スコア(独自算出の注目度): 27.683599068167442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity digital humans are increasingly used in interactive applications, yet achieving both visual realism and real-time responsiveness remains a major challenge. We present a high-fidelity, real-time conversational digital human system that seamlessly combines a visually realistic 3D avatar, persona-driven expressive speech synthesis, and knowledge-grounded dialogue generation. To support natural and timely interaction, we introduce an asynchronous execution pipeline that coordinates multi-modal components with minimal latency. The system supports advanced features such as wake word detection, emotionally expressive prosody, and highly accurate, context-aware response generation. It leverages novel retrieval-augmented methods, including history augmentation to maintain conversational flow and intent-based routing for efficient knowledge access. Together, these components form an integrated system that enables responsive and believable digital humans, suitable for immersive applications in communication, education, and entertainment.
- Abstract(参考訳): 高忠実度デジタル人間はインタラクティブなアプリケーションでますます使われているが、視覚的リアリズムとリアルタイムの応答性の両方を達成することは大きな課題である。
本研究では,視覚的にリアルな3Dアバター,ペルソナ駆動の表現型音声合成,知識に基づく対話生成をシームレスに組み合わせた,高忠実でリアルタイムな対話型デジタルヒューマンシステムを提案する。
自然でタイムリーなインタラクションをサポートするために,マルチモーダルコンポーネントを最小限のレイテンシで調整する非同期実行パイプラインを導入する。
このシステムは、ウェイクワードの検出、感情表現型韻律、高度に正確な文脈認識応答生成などの高度な機能をサポートしている。
会話の流れを維持するために履歴拡張や、効率的な知識アクセスのための意図に基づくルーティングなど、新しい検索強化手法を活用する。
これらのコンポーネントは、コミュニケーション、教育、エンターテイメントにおける没入型アプリケーションに適した、応答性と信頼性の高いデジタル人間を可能にする統合システムを形成する。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation [23.343080324521434]
本稿では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
本フレームワークは,音声,ポーズ,テキストを含むマルチモーダルな条件符号化を受け入れ,空間的・意味的コヒーレントな表現を出力する。
これを支援するために,複数の情報源から約2万時間に及ぶ大規模対話データセットを構築した。
論文 参考訳(メタデータ) (2025-08-26T14:00:16Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - RITA: A Real-time Interactive Talking Avatars Framework [6.060251768347276]
RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
論文 参考訳(メタデータ) (2024-06-18T22:53:15Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - I Was Blind but Now I See: Implementing Vision-Enabled Dialogue in
Social Robots [0.040792653193642496]
本稿では、従来のテキストベースのプロンプトをリアルタイム視覚入力で強化する対話マネージャの初期実装について述べる。
システムの迅速なエンジニアリングは、画像の要約と対話を組み込むことで、コンテキスト保存と計算効率のバランスを確保する。
論文 参考訳(メタデータ) (2023-11-15T13:47:00Z) - Real-Time Gesture Recognition with Virtual Glove Markers [1.8352113484137629]
ジェスチャー認識アプリケーションのためのリアルタイムコンピュータビジョンに基づくヒューマンコンピュータインタラクションツールを提案する。
このシステムは、テレプレゼンスとリハビリテーションによるソーシャルインタラクションを含むリアルタイムアプリケーションに有効である。
論文 参考訳(メタデータ) (2022-07-06T14:56:08Z) - Enabling Harmonious Human-Machine Interaction with Visual-Context
Augmented Dialogue System: A Review [40.49926141538684]
Visual Context Augmented Dialogue System (VAD) は、マルチモーダル情報を知覚し理解することで人間とコミュニケーションする能力を持つ。
VADは、エンゲージメントとコンテキスト対応の応答を生成する可能性を秘めている。
論文 参考訳(メタデータ) (2022-07-02T09:31:37Z) - Retrieval Augmentation Reduces Hallucination in Conversation [49.35235945543833]
知識に基づく対話のためのループ型ニューラルネットワークアーキテクチャの利用を検討する。
我々は,2つの知識に基づく会話タスクにおいて,最高のモデルが最先端のパフォーマンスを得ることを示す。
論文 参考訳(メタデータ) (2021-04-15T16:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。