論文の概要: VoluMe -- Authentic 3D Video Calls from Live Gaussian Splat Prediction
- arxiv url: http://arxiv.org/abs/2507.21311v1
- Date: Mon, 28 Jul 2025 20:07:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.265218
- Title: VoluMe -- Authentic 3D Video Calls from Live Gaussian Splat Prediction
- Title(参考訳): VoluMe、Gaussian Splat予測で3Dビデオ通話を認証
- Authors: Martin de La Gorce, Charlie Hewitt, Tibor Takacs, Robert Gerdisch, Zafiirah Hosenie, Givi Meishvili, Marek Kowalski, Thomas J. Cashman, Antonio Criminisi,
- Abstract要約: 本稿では,1つの2次元ウェブカメラフィードから3次元ガウス復元をリアルタイムで予測する手法を提案する。
各映像フレームに独立して3D表現を条件付けすることで,映像をキャプチャー視点から忠実に再現する。
本手法は,既存の手法と比較して,視覚的品質と安定性の指標における最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 9.570954192915005
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual 3D meetings offer the potential to enhance copresence, increase engagement and thus improve effectiveness of remote meetings compared to standard 2D video calls. However, representing people in 3D meetings remains a challenge; existing solutions achieve high quality by using complex hardware, making use of fixed appearance via enrolment, or by inverting a pre-trained generative model. These approaches lead to constraints that are unwelcome and ill-fitting for videoconferencing applications. We present the first method to predict 3D Gaussian reconstructions in real time from a single 2D webcam feed, where the 3D representation is not only live and realistic, but also authentic to the input video. By conditioning the 3D representation on each video frame independently, our reconstruction faithfully recreates the input video from the captured viewpoint (a property we call authenticity), while generalizing realistically to novel viewpoints. Additionally, we introduce a stability loss to obtain reconstructions that are temporally stable on video sequences. We show that our method delivers state-of-the-art accuracy in visual quality and stability metrics compared to existing methods, and demonstrate our approach in live one-to-one 3D meetings using only a standard 2D camera and display. This demonstrates that our approach can allow anyone to communicate volumetrically, via a method for 3D videoconferencing that is not only highly accessible, but also realistic and authentic.
- Abstract(参考訳): 仮想3D会議は、通常の2Dビデオ通話と比較して、コンパレンスを強化し、エンゲージメントを高め、リモートミーティングの有効性を向上させる可能性がある。
既存のソリューションは、複雑なハードウェアを使用したり、エンローメントによる固定外観を使ったり、事前訓練された生成モデルを反転させたりすることで、高品質を実現しています。
これらのアプローチは、ビデオ会議アプリケーションに不適当で不適当な制約につながる。
本稿では,1つの2次元ウェブカメラフィードから3次元ガウス変換をリアルタイムに予測する手法を提案する。
それぞれの映像フレームに3D表現を独立に条件付けすることで、我々は、キャプチャされた視点(認証と呼ぶ特性)から入力された映像を忠実に再現し、新しい視点に現実的に一般化する。
さらに,ビデオシーケンス上で時間的に安定な再構成を実現するために,安定性損失を導入する。
提案手法は,従来の手法と比較して,視覚的品質と安定性の指標における最先端の精度を提供し,標準的な2Dカメラとディスプレイのみを用いた1対1の3D会議におけるアプローチを実証する。
この手法は,3Dビデオ会議の手法によって誰でもボリューム的にコミュニケーションできることを示す。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - Coherent3D: Coherent 3D Portrait Video Reconstruction via Triplane Fusion [22.185551913099598]
シングルイメージの3Dポートレートの再構築により、テレプレゼンスシステムは1台のカメラからリアルタイムで3Dのポートレート映像をストリーミングできるようになった。
しかし、フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
本稿では,フレーム単位の入力ビューから動的に出現する参照ビューから,標準3Dを融合することにより,両世界を最大限に活用する新しい融合方式を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:24Z) - ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - Coherent 3D Portrait Video Reconstruction via Triplane Fusion [21.381482393260406]
フレームごとの3D再構成は時間的不整合を示し、ユーザの外観を忘れる。
フレーム単位の情報に先立ってパーソナライズされた3D被写体を融合する新しいフュージョンベース手法を提案する。
提案手法は,最新の3次元再構成精度と時間的整合性の両方を,インスタディオおよびインザミルドデータセット上で達成する。
論文 参考訳(メタデータ) (2024-05-01T18:08:51Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis [88.17520303867099]
ワンショットの3Dトーキングポートレート生成は、目に見えない画像から3Dアバターを再構成し、参照ビデオやオーディオでアニメーション化する。
本稿では,大規模な画像-平面モデルを用いて,ワンショット3D再構成能力を向上させるフレームワークであるReal3D-Potraitを提案する。
実験の結果、Real3D-Portraitは目に見えない人物を一般化し、よりリアルなトーキング・ポートレート・ビデオを生成することがわかった。
論文 参考訳(メタデータ) (2024-01-16T17:04:30Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。