論文の概要: Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
- arxiv url: http://arxiv.org/abs/2409.08353v1
- Date: Thu, 12 Sep 2024 18:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 18:37:11.439573
- Title: Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos
- Title(参考訳): 没入型人間中心ボリュームビデオのためのロバストデュアルガウススプラッティング
- Authors: Yuheng Jiang, Zhehao Shen, Yu Hong, Chengcheng Guo, Yize Wu, Yingliang Zhang, Jingyi Yu, Lan Xu,
- Abstract要約: 我々は、複雑な人間のパフォーマンスをリアルタイムかつ高忠実に再生するための、textitDualGSと呼ばれる新しいアプローチを提案する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
我々は、VRヘッドセット上で写真リアルで自由視点体験を通して、表現の有効性を実証する。
- 参考スコア(独自算出の注目度): 44.50599475213118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Volumetric video represents a transformative advancement in visual media, enabling users to freely navigate immersive virtual experiences and narrowing the gap between digital and real worlds. However, the need for extensive manual intervention to stabilize mesh sequences and the generation of excessively large assets in existing workflows impedes broader adoption. In this paper, we present a novel Gaussian-based approach, dubbed \textit{DualGS}, for real-time and high-fidelity playback of complex human performance with excellent compression ratios. Our key idea in DualGS is to separately represent motion and appearance using the corresponding skin and joint Gaussians. Such an explicit disentanglement can significantly reduce motion redundancy and enhance temporal coherence. We begin by initializing the DualGS and anchoring skin Gaussians to joint Gaussians at the first frame. Subsequently, we employ a coarse-to-fine training strategy for frame-by-frame human performance modeling. It includes a coarse alignment phase for overall motion prediction as well as a fine-grained optimization for robust tracking and high-fidelity rendering. To integrate volumetric video seamlessly into VR environments, we efficiently compress motion using entropy encoding and appearance using codec compression coupled with a persistent codebook. Our approach achieves a compression ratio of up to 120 times, only requiring approximately 350KB of storage per frame. We demonstrate the efficacy of our representation through photo-realistic, free-view experiences on VR headsets, enabling users to immersively watch musicians in performance and feel the rhythm of the notes at the performers' fingertips.
- Abstract(参考訳): ボリュームビデオはビジュアルメディアの革新的な進歩を表しており、ユーザーは没入型仮想体験を自由にナビゲートし、デジタルと現実世界のギャップを狭めることができる。
しかしながら、メッシュシーケンスを安定化するための広範囲な手作業による介入の必要性と、既存のワークフローにおける過剰な大規模なアセットの生成は、より広範な採用を妨げる。
本稿では, 圧縮比に優れた複雑な人間の演奏をリアルタイムかつ高忠実に再生するための新しいガウス的手法である「textit{DualGS}」を提案する。
DualGSのキーとなるアイデアは、対応する皮膚と関節のガウスを用いて、動きと外観を別々に表現することである。
このような明示的な絡み合いは、運動の冗長性を著しく低減し、時間的コヒーレンスを高める。
まずDualGSを初期化し、第1フレームでGaussianと共同でGaussianをアンカーする。
その後、フレームごとの人間パフォーマンスモデリングに粗大なトレーニング戦略を採用する。
これには、全体の動き予測のための粗いアライメントフェーズと、ロバストなトラッキングと高忠実度レンダリングのためのきめ細かい最適化が含まれている。
ボリューム映像をVR環境にシームレスに統合するために,エントロピー符号化とコーデック圧縮と永続的なコードブックを組み合わせることで,動きを効率よく圧縮する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
本稿は,VRヘッドセット上での映像リアリスティックなフリービュー体験による表現の有効性を実証し,演奏中のミュージシャンを没入的に観察し,演奏者の指先で音符のリズムを感じることを可能にする。
関連論文リスト
- HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting [7.507657419706855]
本稿では,HiCoMと呼ばれる3つの重要なコンポーネントを持つ効率的なフレームワークを提案する。
まず、摂動平滑化戦略を用いて、コンパクトで頑健な初期3DGS表現を構築する。
次に、3次元ガウスの固有非一様分布と局所的一貫性を利用する階層的コヒーレント運動機構を導入する。
2つの広く利用されているデータセットを用いて行った実験により、我々のフレームワークは最先端の手法の学習効率を約20%向上することが示された。
論文 参考訳(メタデータ) (2024-11-12T04:40:27Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - SwinGS: Sliding Window Gaussian Splatting for Volumetric Video Streaming with Arbitrary Length [2.4844080708094745]
本稿では,リアルタイムストリーミング方式でボリュームビデオのトレーニング,配信,レンダリングを行うフレームワークであるSwinGSを紹介する。
SwingGSはPSNRの妥協を無視する以前の研究と比較して伝送コストを83.6%削減することを示した。
また、現代的なブラウザを持つほとんどのデバイス上で、リアルタイムのボリュームビデオ再生を可能にするインタラクティブなWebGLビューアを開発した。
論文 参考訳(メタデータ) (2024-09-12T05:33:15Z) - HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian
Splatting [48.59338619051709]
HiFi4Gは、高密度映像からの高忠実度人間パフォーマンスレンダリングのための、明示的でコンパクトなガウスベースのアプローチである。
圧縮速度は25回程度で、1フレームあたり2MB未満である。
論文 参考訳(メタデータ) (2023-12-06T12:36:53Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Human Performance Modeling and Rendering via Neural Animated Mesh [40.25449482006199]
従来のメッシュをニューラルレンダリングの新たなクラスでブリッジします。
本稿では,映像から人間の視点をレンダリングする新しい手法を提案する。
我々は、ARヘッドセットにバーチャルヒューマンパフォーマンスを挿入して、さまざまなプラットフォーム上でのアプローチを実証する。
論文 参考訳(メタデータ) (2022-09-18T03:58:00Z) - Context-Aware Video Reconstruction for Rolling Shutter Cameras [52.28710992548282]
本稿では,文脈対応のGSビデオ再構成アーキテクチャを提案する。
まず、2つのRSフレームの画素が共通のGSフレームに歪むように、左右の運動場を推定する。
そこで,両面閉塞マスクとともにGSフレーム合成を誘導し,高忠実度GSビデオフレームを生成するための改良手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。