論文の概要: StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars
- arxiv url: http://arxiv.org/abs/2512.22065v1
- Date: Fri, 26 Dec 2025 15:41:24 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:55:14.192942
- Title: StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars
- Title(参考訳): StreamAvatar: リアルタイム対話型アバターのための拡散モデル
- Authors: Zhiyao Sun, Ziqiao Peng, Yifeng Ma, Yi Chen, Zhengguang Zhou, Zixiang Zhou, Guozhen Zhang, Youliang Zhang, Yuan Zhou, Qinglin Lu, Yong-Jin Liu,
- Abstract要約: 本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
- 参考スコア(独自算出の注目度): 32.75338796722652
- License:
- Abstract: Real-time, streaming interactive avatars represent a critical yet challenging goal in digital human research. Although diffusion-based human avatar generation methods achieve remarkable success, their non-causal architecture and high computational costs make them unsuitable for streaming. Moreover, existing interactive approaches are typically limited to head-and-shoulder region, limiting their ability to produce gestures and body motions. To address these challenges, we propose a two-stage autoregressive adaptation and acceleration framework that applies autoregressive distillation and adversarial refinement to adapt a high-fidelity human video diffusion model for real-time, interactive streaming. To ensure long-term stability and consistency, we introduce three key components: a Reference Sink, a Reference-Anchored Positional Re-encoding (RAPR) strategy, and a Consistency-Aware Discriminator. Building on this framework, we develop a one-shot, interactive, human avatar model capable of generating both natural talking and listening behaviors with coherent gestures. Extensive experiments demonstrate that our method achieves state-of-the-art performance, surpassing existing approaches in generation quality, real-time efficiency, and interaction naturalness. Project page: https://streamavatar.github.io .
- Abstract(参考訳): リアルタイムでストリーミングの対話型アバターは、デジタル人間の研究において重要な目標でありながら挑戦的な目標である。
拡散に基づく人間のアバター生成手法は驚くべき成功を収めるが、その非因果アーキテクチャと高い計算コストはストリーミングには適さない。
さらに、既存のインタラクティブなアプローチは、通常ヘッド・アンド・ショルダー領域に限られており、ジェスチャーや身体の動きを生成する能力を制限する。
これらの課題に対処するために, リアルタイムの対話型ストリーミングに高忠実度映像拡散モデルを適用するために, 自己回帰蒸留と対角補正を適用した2段階の自己回帰適応・加速フレームワークを提案する。
長期的安定性と一貫性を確保するため,参照シンク,参照アンコール位置再符号化(RAPR)戦略,一貫性を考慮した識別器の3つの重要なコンポーネントを紹介する。
この枠組みを基盤として,自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを構築した。
大規模実験により,本手法は, 生成品質, リアルタイム効率, 相互作用自然性において, 既存の手法を超越して, 最先端の性能を実現することが実証された。
プロジェクトページ: https://streamavatar.github.io 。
関連論文リスト
- Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文 参考訳(メタデータ) (2025-04-07T11:44:11Z) - Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation [5.78796187123888]
本研究では,1つの画像,ビデオ,ランダムノイズから時間的コヒーレントな人間のアニメーションを生成する手法を提案する。
両方向の時間的モデリングは、人間の外見の運動あいまいさを大幅に抑制することにより、生成ネットワーク上の時間的コヒーレンスを強制すると主張している。
論文 参考訳(メタデータ) (2023-07-02T13:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。