論文の概要: V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
- arxiv url: http://arxiv.org/abs/2409.13648v2
- Date: Mon, 23 Sep 2024 08:04:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:08:43.897981
- Title: V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians
- Title(参考訳): V^3: ストリーミング2次元ダイナミックガウスによるモバイル上のボリュームビデオ閲覧
- Authors: Penghao Wang, Zhirui Zhang, Liao Wang, Kaixin Yao, Siyuan Xie, Jingyi Yu, Minye Wu, Lan Xu,
- Abstract要約: V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
- 参考スコア(独自算出の注目度): 53.614560799043545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experiencing high-fidelity volumetric video as seamlessly as 2D videos is a long-held dream. However, current dynamic 3DGS methods, despite their high rendering quality, face challenges in streaming on mobile devices due to computational and bandwidth constraints. In this paper, we introduce V^3 (Viewing Volumetric Videos), a novel approach that enables high-quality mobile rendering through the streaming of dynamic Gaussians. Our key innovation is to view dynamic 3DGS as 2D videos, facilitating the use of hardware video codecs. Additionally, we propose a two-stage training strategy to reduce storage requirements with rapid training speed. The first stage employs hash encoding and shallow MLP to learn motion, then reduces the number of Gaussians through pruning to meet the streaming requirements, while the second stage fine tunes other Gaussian attributes using residual entropy loss and temporal loss to improve temporal continuity. This strategy, which disentangles motion and appearance, maintains high rendering quality with compact storage requirements. Meanwhile, we designed a multi-platform player to decode and render 2D Gaussian videos. Extensive experiments demonstrate the effectiveness of V^3, outperforming other methods by enabling high-quality rendering and streaming on common devices, which is unseen before. As the first to stream dynamic Gaussians on mobile devices, our companion player offers users an unprecedented volumetric video experience, including smooth scrolling and instant sharing. Our project page with source code is available at https://authoritywang.github.io/v3/.
- Abstract(参考訳): 2Dビデオのようにシームレスに高精細なボリュームビデオを見ることは、長年の夢だ。
しかし、現在の動的3DGS手法は、高いレンダリング品質にもかかわらず、計算と帯域幅の制約によりモバイルデバイス上でのストリーミングにおいて困難に直面している。
本稿では,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する新しい手法であるV^3(Viewing Volumetric Videos)を紹介する。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
さらに,高速な学習速度でストレージ要求を減らすための2段階のトレーニング戦略を提案する。
第1段階は、動作を学ぶためにハッシュエンコーディングと浅いMPPを使用し、ストリーミング要求を満たすためにプルーニングによってガウスの数を減少させ、第2段階は残留エントロピー損失と時間的損失を用いて他のガウスの属性を微調整し、時間的連続性を改善する。
この戦略は動きと外観を歪め、コンパクトなストレージ要件で高いレンダリング品質を維持する。
一方,2Dガウスビデオのデコードとレンダリングを行うマルチプラットフォームプレーヤを設計した。
広汎な実験はV^3の有効性を実証し、従来は見られなかった高品質なレンダリングと、一般的なデバイスでのストリーミングを可能にし、他の手法よりも優れていることを示した。
モバイルデバイス上で動的ガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、スムーズなスクロールやインスタント共有など、前例のないボリュームビデオ体験をユーザに提供します。
ソースコードのプロジェクトページはhttps://authoritywang.github.io/v3/.com/で公開されている。
関連論文リスト
- Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos [42.554100586090826]
オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。
本稿では,3次元ガウス演算を用いたFVVストリーミングのためのQUantized and Efficient ENcodingのための新しいフレームワークを提案する。
さらに,ガウス位置以外の残差を効果的に定量化するための学習された潜在復号器を含む量子化スパーリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T18:59:55Z) - HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting [7.507657419706855]
本稿では,HiCoMと呼ばれる3つの重要なコンポーネントを持つ効率的なフレームワークを提案する。
まず、摂動平滑化戦略を用いて、コンパクトで頑健な初期3DGS表現を構築する。
次に、3次元ガウスの固有非一様分布と局所的一貫性を利用する階層的コヒーレント運動機構を導入する。
2つの広く利用されているデータセットを用いて行った実験により、我々のフレームワークは最先端の手法の学習効率を約20%向上することが示された。
論文 参考訳(メタデータ) (2024-11-12T04:40:27Z) - Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos [44.50599475213118]
我々は、複雑な人間のパフォーマンスをリアルタイムかつ高忠実に再生するための、textitDualGSと呼ばれる新しいアプローチを提案する。
提案手法は最大120倍の圧縮比を実現し,フレームあたり約350KBのストレージを必要とする。
我々は、VRヘッドセット上で写真リアルで自由視点体験を通して、表現の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-12T18:33:13Z) - SwinGS: Sliding Window Gaussian Splatting for Volumetric Video Streaming with Arbitrary Length [2.4844080708094745]
本稿では,リアルタイムストリーミング方式でボリュームビデオのトレーニング,配信,レンダリングを行うフレームワークであるSwinGSを紹介する。
SwingGSはPSNRの妥協を無視する以前の研究と比較して伝送コストを83.6%削減することを示した。
また、現代的なブラウザを持つほとんどのデバイス上で、リアルタイムのボリュームビデオ再生を可能にするインタラクティブなWebGLビューアを開発した。
論文 参考訳(メタデータ) (2024-09-12T05:33:15Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams [56.00479598817949]
VideoRFは、モバイルプラットフォーム上で動的ラディアンスフィールドのリアルタイムストリーミングとレンダリングを可能にする最初のアプローチである。
特徴画像ストリームを2次元ビデオコーデックで効率よく圧縮できることを示す。
我々は動的シーンのオンラインストリーミングとレンダリングを可能にするリアルタイムインタラクティブプレーヤーを開発した。
論文 参考訳(メタデータ) (2023-12-03T14:14:35Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。