論文の概要: UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking
- arxiv url: http://arxiv.org/abs/2512.09327v1
- Date: Wed, 10 Dec 2025 05:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.40344
- Title: UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking
- Title(参考訳): UniLS: 聴取と発話を統一するためのエンドツーエンドオーディオ駆動アバター
- Authors: Xuangeng Chu, Ruicong Liu, Yifei Huang, Yun Liu, Yichen Peng, Bo Zheng,
- Abstract要約: UniLSは、デュアルトラックオーディオのみによって駆動される統一された音声リスト式を生成するための最初のエンドツーエンドフレームワークである。
聴取能力は44.1%向上し、より多様で自然な聴取表現を生み出している。
- 参考スコア(独自算出の注目度): 21.70536197968411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating lifelike conversational avatars requires modeling not just isolated speakers, but the dynamic, reciprocal interaction of speaking and listening. However, modeling the listener is exceptionally challenging: direct audio-driven training fails, producing stiff, static listening motions. This failure stems from a fundamental imbalance: the speaker's motion is strongly driven by speech audio, while the listener's motion primarily follows an internal motion prior and is only loosely guided by external speech. This challenge has led most methods to focus on speak-only generation. The only prior attempt at joint generation relies on extra speaker's motion to produce the listener. This design is not end-to-end, thereby hindering the real-time applicability. To address this limitation, we present UniLS, the first end-to-end framework for generating unified speak-listen expressions, driven by only dual-track audio. Our method introduces a novel two-stage training paradigm. Stage 1 first learns the internal motion prior by training an audio-free autoregressive generator, capturing the spontaneous dynamics of natural facial motion. Stage 2 then introduces the dual-track audio, fine-tuning the generator to modulate the learned motion prior based on external speech cues. Extensive evaluations show UniLS achieves state-of-the-art speaking accuracy. More importantly, it delivers up to 44.1\% improvement in listening metrics, generating significantly more diverse and natural listening expressions. This effectively mitigates the stiffness problem and provides a practical, high-fidelity audio-driven solution for interactive digital humans.
- Abstract(参考訳): ライフライクな会話アバターを生成するには、孤立した話者だけでなく、話すことと聞くことの動的で相互の相互作用をモデリングする必要がある。
しかし、リスナーのモデリングは非常に難しい。ダイレクトオーディオ駆動トレーニングは失敗し、頑丈で静的な聴取動作を生成する。
この失敗は、話者の動きが音声によって強く駆動されるのに対して、リスナーの動きは、主に内部の動きに従っており、外部の音声によってのみ緩やかに導かれるという基本的な不均衡から生じる。
この課題は、ほとんどのメソッドが音声のみに焦点を絞っている。
ジョイントジェネレーションの唯一の試みは、リスナーを生成するために余分な話者の動きに依存することである。
この設計はエンドツーエンドではないため、リアルタイム適用性を妨げている。
この制限に対処するため、両トラック音声のみによって駆動される統一音声リスト式を生成するための最初のエンドツーエンドフレームワークUniLSを提案する。
本稿では,新しい2段階学習パラダイムを提案する。
ステージ1はまず、音声のない自己回帰生成器を訓練する前に内部の動きを学習し、自然な顔の動きの自発的なダイナミクスを捉える。
次に、ステージ2はデュアルトラックオーディオを導入し、外部の音声キューに基づいて学習した動きを変調するためにジェネレータを微調整する。
広範囲な評価は、UniLSが最先端の発話精度を達成することを示している。
さらに重要なのは、リスニング指標を最大44.1\%改善し、より多様性と自然なリスニング表現を生成することだ。
これにより、剛性問題を効果的に軽減し、インタラクティブなデジタル人間のための実用的で高忠実なオーディオ駆動ソリューションを提供する。
関連論文リスト
- StreamingTalker: Audio-driven 3D Facial Animation with Autoregressive Diffusion Model [73.30619724574642]
音声駆動型3D顔アニメーションは、音声入力によって駆動される現実的で同期された顔の動きを生成することを目的としている。
近年,3次元顔アニメーションに音声条件拡散モデルが採用されている。
本稿では,ストリーミング方式で音声を処理する自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-18T07:55:16Z) - Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - The Right to Talk: An Audio-Visual Transformer Approach [27.71444773878775]
本研究は,複数話者会話ビデオの音声および視覚チャネルにおける主話者のローカライゼーションと強調を行うために,新たなオーディオ・ビジュアル・トランスフォーマーアプローチを導入する。
我々の知る限りでは、マルチスピーカー会話ビデオにおいて、視覚と音声の両方で主話者を自動的にローカライズし、ハイライトすることができる最初の研究の1つである。
論文 参考訳(メタデータ) (2021-08-06T18:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。