論文の概要: QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos
- arxiv url: http://arxiv.org/abs/2412.04469v1
- Date: Thu, 05 Dec 2024 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:42:12.482391
- Title: QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos
- Title(参考訳): QUEEN:QUantized Efficient Encoding of Dynamic Gaussians for Streaming Free-view Videos
- Authors: Sharath Girish, Tianye Li, Amrita Mazumdar, Abhinav Shrivastava, David Luebke, Shalini De Mello,
- Abstract要約: オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。
本稿では,3次元ガウス演算を用いたFVVストリーミングのためのQUantized and Efficient ENcodingのための新しいフレームワークを提案する。
さらに,ガウス位置以外の残差を効果的に定量化するための学習された潜在復号器を含む量子化スパーリティフレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.554100586090826
- License:
- Abstract: Online free-viewpoint video (FVV) streaming is a challenging problem, which is relatively under-explored. It requires incremental on-the-fly updates to a volumetric representation, fast training and rendering to satisfy real-time constraints and a small memory footprint for efficient transmission. If achieved, it can enhance user experience by enabling novel applications, e.g., 3D video conferencing and live volumetric video broadcast, among others. In this work, we propose a novel framework for QUantized and Efficient ENcoding (QUEEN) for streaming FVV using 3D Gaussian Splatting (3D-GS). QUEEN directly learns Gaussian attribute residuals between consecutive frames at each time-step without imposing any structural constraints on them, allowing for high quality reconstruction and generalizability. To efficiently store the residuals, we further propose a quantization-sparsity framework, which contains a learned latent-decoder for effectively quantizing attribute residuals other than Gaussian positions and a learned gating module to sparsify position residuals. We propose to use the Gaussian viewspace gradient difference vector as a signal to separate the static and dynamic content of the scene. It acts as a guide for effective sparsity learning and speeds up training. On diverse FVV benchmarks, QUEEN outperforms the state-of-the-art online FVV methods on all metrics. Notably, for several highly dynamic scenes, it reduces the model size to just 0.7 MB per frame while training in under 5 sec and rendering at 350 FPS. Project website is at https://research.nvidia.com/labs/amri/projects/queen
- Abstract(参考訳): オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。
ボリューム表現へのインクリメンタルなオンザフライアップデート、リアルタイムの制約を満たすための高速なトレーニングとレンダリング、効率的な送信のためにはメモリフットプリントを小さくする必要がある。
実現すれば、3Dビデオ会議やライブボリュームビデオ放送などの新しいアプリケーションを可能にすることで、ユーザエクスペリエンスを向上させることができる。
本研究では,3次元ガウススプラッティング(3D-GS)を用いたFVVストリーミングのためのQUantized and Efficient ENcoding(QUEEN)を提案する。
QUEENは連続するフレーム間のガウス的属性残差を直接学習し、構造的制約を課すことなく、高品質な再構成と一般化が可能となる。
残差を効率的に保存するために,ガウス位置以外の属性残差を効果的に定量化する学習潜在復号器と,位置残差を分散する学習ゲーティングモジュールを含む量子化分離フレームワークを提案する。
本稿では,Gaussianビュースペース勾配差分ベクトルを信号として,シーンの静的および動的内容の分離を提案する。
効果的なスパシティ学習のガイドとして機能し、トレーニングをスピードアップする。
多様なFVVベンチマークでは、QUEENはすべてのメトリクスで最先端のオンラインFVVメソッドよりも優れています。
特に、非常にダイナミックなシーンでは、1フレームあたり0.7MBまで縮小し、5秒未満でトレーニングし、350FPSでレンダリングする。
Project Webサイトはhttps://research.nvidia.com/labs/amri/projects/queenにある。
関連論文リスト
- HiCoM: Hierarchical Coherent Motion for Streamable Dynamic Scene with 3D Gaussian Splatting [7.507657419706855]
本稿では,HiCoMと呼ばれる3つの重要なコンポーネントを持つ効率的なフレームワークを提案する。
まず、摂動平滑化戦略を用いて、コンパクトで頑健な初期3DGS表現を構築する。
次に、3次元ガウスの固有非一様分布と局所的一貫性を利用する階層的コヒーレント運動機構を導入する。
2つの広く利用されているデータセットを用いて行った実験により、我々のフレームワークは最先端の手法の学習効率を約20%向上することが示された。
論文 参考訳(メタデータ) (2024-11-12T04:40:27Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS [40.94643885302646]
3Dガウシアンスプラッティング(3D-GS)は、ノベルビューシーンの合成で人気がある。
レイディアンス・ニューラル・フィールド(NeRF)に関連する長いトレーニング時間と遅いレンダリング速度の課題に対処する。
本稿では,メモリ単位の記憶容量を大幅に削減するために,量子化埋め込みを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:55Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Efficient Meta-Tuning for Content-aware Neural Video Delivery [40.3731358963689]
計算コストを削減するために,EMT(Efficient Meta-Tuning)を提案する。
EMTは入力ビデオの最初のチャンクにメタ学習モデルを適用する。
本稿では,ビデオフレームから最も困難なパッチを抽出するための新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-07-20T06:47:10Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。