論文の概要: A$^2$-LLM: An End-to-end Conversational Audio Avatar Large Language Model
- arxiv url: http://arxiv.org/abs/2602.04913v1
- Date: Wed, 04 Feb 2026 02:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.53573
- Title: A$^2$-LLM: An End-to-end Conversational Audio Avatar Large Language Model
- Title(参考訳): A$^2$-LLM: 対話型音声アバター大言語モデル
- Authors: Xiaolin Hu, Hang Yuan, Xinzhu Sang, Binbin Yan, Zhou Yu, Cong Huang, Kai Chen,
- Abstract要約: A$2$-LLMは、言語、音声の韻律、および3D顔の動きを統一されたフレームワーク内で説明するエンドツーエンドの音声アバターモデルである。
深いセマンティック理解により、A$2$-LLMは単純な唇同期以上の感情的に豊かな顔の動きを生成する。
- 参考スコア(独自算出の注目度): 39.89874984616492
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing expressive and responsive conversational digital humans is a cornerstone of next-generation human-computer interaction. While large language models (LLMs) have significantly enhanced dialogue capabilities, most current systems still rely on cascaded architectures that connect independent modules. These pipelines are often plagued by accumulated errors, high latency, and poor real-time performance. Lacking access to the underlying conversational context, these pipelines inherently prioritize rigid lip-sync over emotional depth. To address these challenges, we propose A$^2$-LLM, an end-to-end conversational audio avatar large language model that jointly reasons about language, audio prosody, and 3D facial motion within a unified framework. To facilitate training, we introduce FLAME-QA, a high-quality multimodal dataset designed to align semantic intent with expressive facial dynamics within a QA format. By leveraging deep semantic understanding, A$^2$-LLM generates emotionally rich facial movements beyond simple lip-synchronization. Experimental results demonstrate that our system achieves superior emotional expressiveness while maintaining real-time efficiency (500 ms latency, 0.7 RTF).
- Abstract(参考訳): 表現的で応答性の高い対話型デジタル人間を開発することは、次世代の人間とコンピュータの相互作用の基盤となる。
大きな言語モデル(LLM)は対話能力を大幅に強化しているが、現在のほとんどのシステムは独立したモジュールを接続するカスケードアーキテクチャに依存している。
これらのパイプラインは、蓄積されたエラー、高いレイテンシ、低リアルタイムパフォーマンスに悩まされることが多い。
これらのパイプラインは、根底にある会話コンテキストへのアクセスを欠いているため、感情的な深さよりも厳格なリップシンクを優先する。
これらの課題に対処するために, 言語, 音声韻律, および3次元顔の動きを統合されたフレームワーク内で共用する, エンドツーエンドの音声アバター大言語モデルであるA$^2$-LLMを提案する。
学習を容易にするために,QAフォーマット内で意味的意図と表情的顔力学を整合させるために設計された高品質なマルチモーダルデータセットFLAME-QAを導入する。
深い意味理解を活用することで、A$^2$-LLMは単純な唇同期以上の感情的に豊かな顔の動きを生成する。
実験の結果,500msの待ち時間,0.7RTF) を維持しながら, 感情表現性に優れることがわかった。
関連論文リスト
- Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics [40.86039227407712]
本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
論文 参考訳(メタデータ) (2025-12-17T11:37:35Z) - Game-Time: Evaluating Temporal Dynamics in Spoken Language Models [93.844257719952]
時間的能力を評価するためにGame-Time Benchmarkフレームワークを導入します。
多様なSLMモデルについて評価した結果,性能の相違が明らかとなった。
GameTime Benchmarkは、より時間的に認識された会話型AIに向けた将来の研究を導くための基盤を提供する。
論文 参考訳(メタデータ) (2025-09-30T15:23:39Z) - FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction [49.83226596963294]
音声とコンピュータの対話によりリアルタイム音声対話システムを実現する。
これらのモデルのモデリングとベンチマークは、依然として根本的な課題である。
フルヒューマン音声対話のための最初のベンチマークであるFLEXIを紹介する。
論文 参考訳(メタデータ) (2025-09-26T11:57:42Z) - EAI-Avatar: Emotion-Aware Interactive Talking Head Generation [35.56554951482687]
EAI-Avatarは,ディヤドインタラクションのための新たな感情認識型音声ヘッド生成フレームワークである。
本手法は,会話状態と聴取状態とをシームレスに遷移させる,感情の豊かな時間的一貫した仮想アバターを生成する。
論文 参考訳(メタデータ) (2025-08-25T13:07:03Z) - Real-Time Textless Dialogue Generation [23.456302461693053]
リアルタイム・テキストレス音声対話生成モデル(RTTL-DG)を提案する。
本システムでは,音声音声を直接処理することで,流体の旋回と応答を最小限の遅延で生成する。
我々のモデルでは、バックチャネル、フィルタ、笑い、その他のパラ言語信号が組み込まれており、しばしばカスケード対話システムでは欠落している。
論文 参考訳(メタデータ) (2025-01-08T23:21:43Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - DREAM-Talk: Diffusion-based Realistic Emotional Audio-driven Method for
Single Image Talking Face Generation [75.90730434449874]
DREAM-Talkは2段階の拡散に基づく音声駆動フレームワークで,多彩な表現と正確な唇同期の同時生成に適したフレームワークである。
唇の動きと音声との強い相関を考慮し、音声特徴と感情スタイルを用いて、唇同期精度を向上して力学を洗練する。
定量的かつ質的にも、DREAM-Talkは表現性、リップシンクの精度、知覚品質の点で最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-12-21T05:03:18Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。