論文の概要: Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
- arxiv url: http://arxiv.org/abs/2512.15340v1
- Date: Wed, 17 Dec 2025 11:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.964857
- Title: Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics
- Title(参考訳): シームレスインタラクションに向けて:対話型3次元対話型ヘッドダイナミクスの因果レベルモデリング
- Authors: Junjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang,
- Abstract要約: 本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
- 参考スコア(独自算出の注目度): 40.86039227407712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human conversation involves continuous exchanges of speech and nonverbal cues such as head nods, gaze shifts, and facial expressions that convey attention and emotion. Modeling these bidirectional dynamics in 3D is essential for building expressive avatars and interactive robots. However, existing frameworks often treat talking and listening as independent processes or rely on non-causal full-sequence modeling, hindering temporal coherence across turns. We present TIMAR (Turn-level Interleaved Masked AutoRegression), a causal framework for 3D conversational head generation that models dialogue as interleaved audio-visual contexts. It fuses multimodal information within each turn and applies turn-level causal attention to accumulate conversational history, while a lightweight diffusion head predicts continuous 3D head dynamics that captures both coordination and expressive variability. Experiments on the DualTalk benchmark show that TIMAR reduces Fréchet Distance and MSE by 15-30% on the test set, and achieves similar gains on out-of-distribution data. The source code will be released in the GitHub repository https://github.com/CoderChen01/towards-seamleass-interaction.
- Abstract(参考訳): 人間の会話には、頭蓋骨、視線シフト、注意と感情を伝える表情など、言論と非言語的な手がかりの連続的な交換が含まれる。
これらの双方向のダイナミクスを3Dでモデル化することは、表現力のあるアバターや対話型ロボットを構築するのに不可欠である。
しかし、既存のフレームワークは、会話や聞き取りを独立したプロセスとして扱うことや、旋回する時間的コヒーレンスを妨げる非因果的なフルシーケンスモデリングに依存していることが多い。
TIMAR(Turn-level Interleaved Masked AutoRegression)は、対話をインターリーブされた音声視覚コンテキストとしてモデル化する3次元対話ヘッド生成のための因果的フレームワークである。
各ターンにマルチモーダル情報を融合し,会話履歴の蓄積にターンレベルの因果注意を適用し,軽量拡散ヘッドは協調性と表現性の両方を捉える連続した3次元ヘッドダイナミクスを予測する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減し、アウト・オブ・ディストリビューションデータで同様の利益を得る。
ソースコードはGitHubリポジトリhttps://github.com/CoderChen01/towards-seamleass-interactionでリリースされる。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - 3DXTalker: Unifying Identity, Lip Sync, Emotion, and Spatial Dynamics in Expressive 3D Talking Avatars [46.32463788372058]
3DXTalkerは、データキュレーションされたアイデンティティモデリング、オーディオリッチ表現、空間力学制御性を通じて、表現力のある3Dトーキングアバターである。
我々は,標準音声埋め込みを超えて,フレームワイド振幅と感情的手がかりを導入し,優れた唇同期とニュアンスド表現の変調を実現した。
論文 参考訳(メタデータ) (2026-02-11T04:31:13Z) - MANGO:Natural Multi-speaker 3D Talking Head Generation via 2D-Lifted Enhancement [26.32210658603041]
既存の3D会話アバターアプローチは、きめ細かい顔のダイナミクスを捉えるのに失敗した、エラーを起こしやすい擬似3Dラベルに依存している。
擬似3Dラベルがもたらすノイズを軽減するために、交互にトレーニングすることで、純粋な画像レベルの監視を活用する新しい2段階フレームワークMANGOを提案する。
本手法は,2人の対話動作をモデル化する際の例外的精度と現実性を実現し,音声駆動音声ヘッドの忠実度と制御性を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-05T02:59:49Z) - TAVID: Text-Driven Audio-Visual Interactive Dialogue Generation [72.46711449668814]
本稿では,対話型顔と会話型音声の両方を同期的に生成する統合フレームワークであるTAVIDを紹介する。
本システムの評価は, 顔のリアリズム, 頭部の応答性, ダイアディック相互作用, 音声品質の4つの側面にまたがる。
論文 参考訳(メタデータ) (2025-12-23T12:04:23Z) - HM-Talker: Hybrid Motion Modeling for High-Fidelity Talking Head Synthesis [90.74616208952791]
HM-Talkerは、高忠実で時間的コヒーレントな話しヘッドを生成するための新しいフレームワークである。
AUs(Action Units)は、解剖学的に定義された顔面の筋肉の動きと、音素と視覚の相違を最小限に抑える暗黙的な特徴を使用する。
論文 参考訳(メタデータ) (2025-08-14T12:01:52Z) - DualTalk: Dual-Speaker Interaction for 3D Talking Head Conversations [18.419225973482423]
既存の3Dトーキングヘッドジェネレーションモデルは、話すことや聞くことのみに焦点を当てている。
本稿では,3次元音声ヘッド生成のためのマルチラウンドデュアルスピーカインタラクションを提案する。
我々は、話者とリスナーの動的挙動を統合する新しい統合フレームワークであるDualTalkを紹介する。
論文 参考訳(メタデータ) (2025-05-23T16:49:05Z) - EmoVOCA: Speech-Driven Emotional 3D Talking Heads [12.161006152509653]
EmoVOCAと呼ばれる合成データセットを作成するための革新的なデータ駆動手法を提案する。
次に,3次元顔,音声ファイル,感情ラベル,強度値を入力として受け入れる感情的3次元音声ヘッドジェネレータを設計,訓練し,顔の表情特性で音声同期唇の動きをアニメーション化することを学ぶ。
論文 参考訳(メタデータ) (2024-03-19T16:33:26Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。