論文の概要: EmbodiedHead: Real-Time Listening and Speaking Avatar for Conversational Agents
- arxiv url: http://arxiv.org/abs/2604.17211v1
- Date: Sun, 19 Apr 2026 02:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.393272
- Title: EmbodiedHead: Real-Time Listening and Speaking Avatar for Conversational Agents
- Title(参考訳): EmbodiedHead:会話エージェントのためのリアルタイムリスニングと音声アバター
- Authors: Yu Zhang, Kaiyuan Shen, Yang Li,
- Abstract要約: EmHeadは、LLMに会話のためのリアルタイム視覚アバターを装備する、音声駆動のトーキングヘッドフレームワークである。
実践的な具体化アバターは、リアルタイムな生成、聴取行動の統一、高解像度の視覚的品質を同時に達成する必要がある。
- 参考スコア(独自算出の注目度): 5.090098283091398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present EmbodiedHead, a speech-driven talking-head framework that equips LLMs with real-time visual avatars for conversation. A practical embodied avatar must achieve real-time generation, unified listening-speaking behavior, and high rendered visual quality simultaneously. Our framework couples the first Rectified-Flow Diffusion Transformer (DiT) for this task with a differentiable renderer, enabling diverse, high-fidelity generation in as few as four sampling steps. Prior listening-speaking methods rely on dual-stream audio, introducing an interlocutor look-ahead dependency incompatible with causal user--LLM interaction. We instead adopt a single-stream interface with explicit per-frame listening-speaking state conditioning and a Streaming Audio Scheduler, suppressing spurious mouth motion during listening while enabling seamless turn-taking. A two-stage training scheme of coefficient-space pretraining and joint image-domain refinement further closes the gap between motion-level supervision and rendered quality. Extensive experiments demonstrate state-of-the-art visual quality and motion fidelity in both speaking and listening scenarios.
- Abstract(参考訳): EmbodiedHeadは、LLMにリアルタイム視覚アバターを組み込んだ音声駆動型トーキングヘッドフレームワークである。
実践的な具体化アバターは、リアルタイムな生成、聴取行動の統一、高解像度の視覚的品質を同時に達成する必要がある。
我々のフレームワークは、このタスクに微分フロー拡散変換器(Rectified-Flow Diffusion Transformer, DiT)と微分可能なレンダラを結合し、4つのサンプリングステップで多種多様で高忠実な生成を可能にする。
従来のリスニングはデュアルストリームオーディオに依存しており、因果的ユーザ-LLMインタラクションとは相容れないインターロカタルックアヘッド依存性を導入している。
代わりに、明示的なフレーム単位のリスニング状態条件付きシングルストリームインターフェースと、シームレスなターンテイクを可能にしながら、リスニング中の突発的な口の動きを抑制するストリームオーディオスケジューリングを採用する。
係数空間事前学習と共同画像領域改良の2段階のトレーニングスキームは、運動レベルの監督とレンダリング品質のギャップをさらに埋める。
広汎な実験は、発話と聴取の両方のシナリオにおいて、最先端の視覚的品質と動きの忠実さを示す。
関連論文リスト
- Beyond Monologue: Interactive Talking-Listening Avatar Generation with Conversational Audio Context-Aware Kernels [26.18760496276335]
対話型仮想エージェントを開発し、会話と聴取の両方に双方向の音声入力を同時に処理する。
我々の手法は文脈意味論と強い時間的アライメントを融合させ、非常に自然で応答性の高い対話型デジタル人間を生成するための新しい最先端技術を構築した。
論文 参考訳(メタデータ) (2026-04-11T22:34:21Z) - Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation [71.38488610271247]
トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
現在のモデルは、真の対話的なコミュニケーションの感覚をまだ伝えていない。
本研究では,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
論文 参考訳(メタデータ) (2026-01-02T11:58:48Z) - UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking [21.70536197968411]
UniLSは、デュアルトラックオーディオのみによって駆動される統一された音声リスト式を生成するための最初のエンドツーエンドフレームワークである。
聴取能力は44.1%向上し、より多様で自然な聴取表現を生み出している。
論文 参考訳(メタデータ) (2025-12-10T05:25:58Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。