論文の概要: Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
- arxiv url: http://arxiv.org/abs/2601.00664v1
- Date: Fri, 02 Jan 2026 11:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.565125
- Title: Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation
- Title(参考訳): Avatar Forcing:自然会話のためのリアルタイム対話型ヘッドアバター生成
- Authors: Taekyung Ki, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Sung Ju Hwang,
- Abstract要約: トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
現在のモデルは、真の対話的なコミュニケーションの感覚をまだ伝えていない。
本研究では,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
- 参考スコア(独自算出の注目度): 71.38488610271247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.
- Abstract(参考訳): トーキングヘッド生成は、仮想コミュニケーションとコンテンツ生成のための静的ポートレートから、ライフスタイルのアバターを生成する。
しかし、現在のモデルは真の対話的なコミュニケーションの感覚をまだ伝えておらず、感情的なエンゲージメントを欠く一方的な反応をしばしば生み出す。
因果制約下でリアルタイムに動きを発生させることと、ラベル付きデータなしで表現的で活気ある反応を学習することである。
これらの課題に対処するため,対話型ヘッドアバター生成のための新しいフレームワークであるAvatar Forcingを提案する。
この設計により、アバターはユーザの音声や動きを含むリアルタイムなマルチモーダル入力を処理でき、音声、うなずき、笑いなどの言語的および非言語的手がかりに対する即時反応のレイテンシが低い。
さらに、ユーザ条件を落として構築した合成損失サンプルを利用する直接選好最適化手法を導入し、表現的相互作用のラベルなし学習を可能にした。
実験結果から,本フレームワークは低レイテンシ(約500ms)でのリアルタイム通信を可能にし,ベースラインに比べて6.8倍の高速化を実現し,ベースラインに対して80%以上好まれるリアクティブかつ表現力のあるアバターモーションを生成できることがわかった。
関連論文リスト
- StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-26T15:41:24Z) - Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - EAI-Avatar: Emotion-Aware Interactive Talking Head Generation [35.56554951482687]
EAI-Avatarは,ディヤドインタラクションのための新たな感情認識型音声ヘッド生成フレームワークである。
本手法は,会話状態と聴取状態とをシームレスに遷移させる,感情の豊かな時間的一貫した仮想アバターを生成する。
論文 参考訳(メタデータ) (2025-08-25T13:07:03Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video
Generation [54.84137342837465]
対面会話は毎日の会話の大部分を占める。
既存の手法のほとんどは、一人称音声音声生成に重点を置いている。
ニューラルレイディアンスフィールド(NeRF)に基づく新しい統合フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-15T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。