論文の概要: RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation
- arxiv url: http://arxiv.org/abs/2601.10606v1
- Date: Thu, 15 Jan 2026 17:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.244097
- Title: RSATalker: Realistic Socially-Aware Talking Head Generation for Multi-Turn Conversation
- Title(参考訳): RSATalker:マルチスレッド会話のためのリアルなソーシャル・アウェア・トーキング・ヘッドジェネレーション
- Authors: Peng Chen, Xiaobao Wei, Yi Yang, Naiming Yao, Hui Chen, Feng Tian,
- Abstract要約: RSATalkerは,現実的で社会的に認識された対話ヘッドジェネレーションに3DGSを活用する最初のフレームワークである。
提案手法は,まず音声からメッシュベースの3D顔の動きを駆動し,その後3Dガウスアンをメッシュフェイスに結合して高忠実度2Dアバター映像を描画する。
対人的ダイナミクスを捉えるために,血液や非血液などの社会的関係を符号化し,平等かつ不平等に表現するモジュールを提案する。
- 参考スコア(独自算出の注目度): 16.484330085082536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking head generation is increasingly important in virtual reality (VR), especially for social scenarios involving multi-turn conversation. Existing approaches face notable limitations: mesh-based 3D methods can model dual-person dialogue but lack realistic textures, while large-model-based 2D methods produce natural appearances but incur prohibitive computational costs. Recently, 3D Gaussian Splatting (3DGS) based methods achieve efficient and realistic rendering but remain speaker-only and ignore social relationships. We introduce RSATalker, the first framework that leverages 3DGS for realistic and socially-aware talking head generation with support for multi-turn conversation. Our method first drives mesh-based 3D facial motion from speech, then binds 3D Gaussians to mesh facets to render high-fidelity 2D avatar videos. To capture interpersonal dynamics, we propose a socially-aware module that encodes social relationships, including blood and non-blood as well as equal and unequal, into high-level embeddings through a learnable query mechanism. We design a three-stage training paradigm and construct the RSATalker dataset with speech-mesh-image triplets annotated with social relationships. Extensive experiments demonstrate that RSATalker achieves state-of-the-art performance in both realism and social awareness. The code and dataset will be released.
- Abstract(参考訳): ヘッドジェネレーションは、仮想現実(VR)、特にマルチターン会話を含む社会的シナリオにおいてますます重要になっている。
メッシュベースの3D手法は二重対人対話をモデル化できるが、現実的なテクスチャは欠如している。
近年, 3D Gaussian Splatting(3DGS)に基づく手法は, 効率的かつ現実的なレンダリングを実現するが, 話者のみに留まり, 社会的関係を無視する。
RSATalkerは3DGSを利用する最初のフレームワークであり、マルチターン会話をサポートした、現実的で社会的に認識された対話ヘッドジェネレーションである。
提案手法は,まず音声からメッシュベースの3D顔の動きを駆動し,その後3Dガウスアンをメッシュフェイスに結合して高忠実度2Dアバター映像を描画する。
対人的ダイナミクスを捉えるために,血液や非血液などの社会的関係を,学習可能なクエリ機構を通じて高レベルな埋め込みにエンコードする,社会的認識モジュールを提案する。
我々は,3段階の学習パラダイムを設計し,社会的関係を付加した音声・画像三重項を用いたRSATalkerデータセットを構築した。
大規模な実験により、RSATalkerは現実主義と社会意識の両方において最先端のパフォーマンスを達成することが示された。
コードとデータセットがリリースされる。
関連論文リスト
- Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics [40.86039227407712]
本稿では,TIMAR(Turn-level Interleaved Masked AutoRegression)について述べる。
各ターンにマルチモーダル情報を融合させ、会話履歴を蓄積するためにターンレベルの因果注意を適用する。
DualTalkベンチマークの実験では、TIMARはテストセット上でFréchet DistanceとMSEを15~30%削減している。
論文 参考訳(メタデータ) (2025-12-17T11:37:35Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - Learn2Talk: 3D Talking Face Learns from 2D Talking Face [15.99315075587735]
本稿では,より優れた3次元音声対話ネットワークを構築することができるLearn2Talkという学習フレームワークを提案する。
オーディオビデオ同期ネットワークにインスパイアされた3Dシンク・リップエキスパートモデルが,リップシンクの追求のために考案された。
2次元対話顔法から選択された教師モデルを用いて、音声から3次元動きの回帰ネットワークのトレーニングを指導する。
論文 参考訳(メタデータ) (2024-04-19T13:45:14Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - GSmoothFace: Generalized Smooth Talking Face Generation via Fine Grained
3D Face Guidance [83.43852715997596]
GSmoothFaceは、粒度の細かい3次元顔モデルによってガイドされる、2段階の一般化された話し顔生成モデルである。
スピーカーのアイデンティティを保ちながらスムーズな唇の動きを合成することができる。
定量的および定性的な実験は、リアリズム、唇の同期、視覚的品質の観点から、我々の方法の優位性を確認する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Generative Proxemics: A Prior for 3D Social Interaction from Images [32.547187575678464]
社会的相互作用は人間の行動とコミュニケーションの基本的な側面である。
近親密なソーシャルインタラクションにおける2人の3Dプロキセメクスの事前学習を行う新しいアプローチを提案する。
提案手法は,ノイズの多い初期推定値から正確な3次元ソーシャルインタラクションを復元し,最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-06-15T17:59:20Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。