論文の概要: Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
- arxiv url: http://arxiv.org/abs/2512.15340v1
- Date: Wed, 17 Dec 2025 11:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.964857
- Title: Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
- Title(参考訳): シームレスインタラクションに向けて:対話型3次元対話型ヘッドダイナミクスの因果レベルモデリング
- Authors: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang,
- Abstract要約: 本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
- 参考スコア(独自算出の注目度): 40.86039227407712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
- Abstract(参考訳): 人間の会話には、頭蓋骨、視線シフト、注意と感情を伝える表情など、言論と非言語的な手がかりの連続的な交換が含まれる。
これらの双方向のダイナミクスを3Dでモデル化することは、表現力のあるアバターや対話型ロボットを構築するのに不可欠である。
しかし、既存のフレームワークは、会話や聞き取りを独立したプロセスとして扱うことや、旋回する時間的コヒーレンスを妨げる非因果的なフルシーケンスモデリングに依存していることが多い。
TIMAR(Turn-level Interleaved Masked AutoRegression)は、対話をインターリーブされた音声視覚コンテキストとしてモデル化する3次元対話ヘッド生成のための因果的フレームワークである。
各ターンにマルチモーダル情報を融合し,会話履歴の蓄積にターンレベルの因果注意を適用し,軽量拡散ヘッドは協調性と表現性の両方を捉える連続した3次元ヘッドダイナミクスを予測する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減し、アウト・オブ・ディストリビューションデータで同様の利益を得る。
ソースコードはGitHubリポジトリhttps://github.com/CoderChen01/towards-seamleass-interactionでリリースされる。
関連論文リスト
- HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations [18.419225973482423]
既存の3Dトーキングヘッドジェネレーションモデルは、話すことや聞くことのみに焦点を当てている。
本稿では,3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
我々は、話者とリスナーの動的挙動を統合する新しい統合フレームワークであるDualTalkを紹介する。
論文 参考訳(メタデータ) (2025-05-23T16:49:05Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。