論文の概要: Mon3tr: Monocular 3D Telepresence with Pre-built Gaussian Avatars as Amortization
- arxiv url: http://arxiv.org/abs/2601.07518v1
- Date: Mon, 12 Jan 2026 13:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.399804
- Title: Mon3tr: Monocular 3D Telepresence with Pre-built Gaussian Avatars as Amortization
- Title(参考訳): Mon3tr: プリビルドされたガウスアバターによる単眼の3Dテレプレゼンス
- Authors: Fangyu Lin, Yingdong Hu, Zhening Liu, Yufan Zhuang, Zehong Lin, Jun Zhang,
- Abstract要約: Mon3trは、3Dガウススプラッティング(3DGS)に基づくパラメトリック人間モデリングを統合する新しいモノクル3Dテレプレゼンスフレームワークである。
単眼のRGBカメラは、身体の動きや表情をリアルタイムで捉え、3DGSベースのパラメトリック人間モデルを駆動するために使用される。
提案手法は,新しいポーズに対するPSNR > 28 dB,80msのエンドツーエンドレイテンシ,1000倍の帯域幅削減を実現する。
- 参考スコア(独自算出の注目度): 16.68162021163563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Immersive telepresence aims to transform human interaction in AR/VR applications by enabling lifelike full-body holographic representations for enhanced remote collaboration. However, existing systems rely on hardware-intensive multi-camera setups and demand high bandwidth for volumetric streaming, limiting their real-time performance on mobile devices. To overcome these challenges, we propose Mon3tr, a novel Monocular 3D telepresence framework that integrates 3D Gaussian splatting (3DGS) based parametric human modeling into telepresence for the first time. Mon3tr adopts an amortized computation strategy, dividing the process into a one-time offline multi-view reconstruction phase to build a user-specific avatar and a monocular online inference phase during live telepresence sessions. A single monocular RGB camera is used to capture body motions and facial expressions in real time to drive the 3DGS-based parametric human model, significantly reducing system complexity and cost. The extracted motion and appearance features are transmitted at < 0.2 Mbps over WebRTC's data channel, allowing robust adaptation to network fluctuations. On the receiver side, e.g., Meta Quest 3, we develop a lightweight 3DGS attribute deformation network to dynamically generate corrective 3DGS attribute adjustments on the pre-built avatar, synthesizing photorealistic motion and appearance at ~ 60 FPS. Extensive experiments demonstrate the state-of-the-art performance of our method, achieving a PSNR of > 28 dB for novel poses, an end-to-end latency of ~ 80 ms, and > 1000x bandwidth reduction compared to point-cloud streaming, while supporting real-time operation from monocular inputs across diverse scenarios. Our demos can be found at https://mon3tr3d.github.io.
- Abstract(参考訳): 没入型テレプレゼンス(Immersive Telepresence)は、AR/VRアプリケーションにおける人間のインタラクションを変換することを目的として、リモートコラボレーションを強化するために、ライフスタイルのフルボディホログラフィック表現を可能にする。
しかし、既存のシステムはハードウェア集約型マルチカメラのセットアップに依存しており、ボリュームストリーミングには高い帯域幅を必要としており、モバイルデバイス上でのリアルタイムパフォーマンスを制限している。
これらの課題を克服するために,我々は,3次元ガウススプラッティング(3DGS)に基づくパラメトリックヒューマンモデリングを初めてテレプレゼンスに統合した,モノクロ3DテレプレゼンスフレームワークMon3trを提案する。
Mon3trは、アモータイズされた計算戦略を採用し、プロセスを1回のオフラインマルチビュー再構成フェーズに分割して、ユーザ固有のアバターと、ライブテレプレゼンスセッション中にモノラルなオンライン推論フェーズを構築する。
単眼のRGBカメラは、身体の動きや表情をリアルタイムで捉えて3DGSベースのパラメトリック人間モデルを駆動し、システムの複雑さとコストを大幅に削減する。
抽出された動きと外観の特徴はWebRTCのデータチャネル上で0.2Mbpsで送信され、ネットワークのゆらぎへの堅牢な適応を可能にする。
受信側,例えばMeta Quest 3では,プリビルドアバターの3DGS属性調整を動的に生成する軽量な3DGS属性変形ネットワークを開発し,フォトリアリスティックな動きと外観を60FPS程度で合成する。
提案手法の最先端性能を実証し,新しいポーズに対するPSNR > 28 dB, エンドツーエンドのレイテンシ ~ 80 ms, > 1000 倍の帯域幅削減を実現し, 多様なシナリオにおけるモノラル入力からのリアルタイム操作をサポートした。
私たちのデモはhttps://mon3tr3d.github.io.comで公開されています。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.48046909056468]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting [4.011241510647248]
各種信号によって駆動される高忠実で軽量な3DGSベースのフルボディ音声アバターであるTaoAvatarについて述べる。
TaoAvatarは、Apple Vision Proのような高精細ステレオデバイス上で90FPSを維持しながら、様々なデバイスでリアルタイムに実行しながら、最先端のレンダリング品質を実現していることを示す。
論文 参考訳(メタデータ) (2025-03-21T10:40:37Z) - SwinGS: Sliding Window Gaussian Splatting for Volumetric Video Streaming with Arbitrary Length [2.4844080708094745]
本稿では,リアルタイムストリーミング方式でボリュームビデオのトレーニング,配信,レンダリングを行う新しいフレームワークであるSwinGSを紹介する。
SwinGSのプロトタイプを実装し、さまざまなデータセットやシーンでストリーム性を示す。
また、現代的なブラウザを持つほとんどのデバイス上で、リアルタイムのボリュームビデオ再生を可能にするインタラクティブなWebGLビューアを開発した。
論文 参考訳(メタデータ) (2024-09-12T05:33:15Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。