論文の概要: StreamSTGS: Streaming Spatial and Temporal Gaussian Grids for Real-Time Free-Viewpoint Video
- arxiv url: http://arxiv.org/abs/2511.06046v1
- Date: Sat, 08 Nov 2025 15:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.726139
- Title: StreamSTGS: Streaming Spatial and Temporal Gaussian Grids for Real-Time Free-Viewpoint Video
- Title(参考訳): StreamSTGS: リアルタイム自由視点ビデオのための空間的および時間的ガウス的グリッドのストリーミング
- Authors: Zhihui Ke, Yuyang Liu, Xiaobo Zhou, Tie Qiu,
- Abstract要約: リアルタイムで自由視点ビデオ(FVV)をストリーミングすることは大きな課題に直面している。
最近の3DGSベースのFVV法は、トレーニングとレンダリングの両方において顕著なブレークスルーを達成した。
本稿では,リアルタイムストリーミング用に設計された新しいFVV表現StreamSTGSを提案する。
- 参考スコア(独自算出の注目度): 16.890908589888678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming free-viewpoint video~(FVV) in real-time still faces significant challenges, particularly in training, rendering, and transmission efficiency. Harnessing superior performance of 3D Gaussian Splatting~(3DGS), recent 3DGS-based FVV methods have achieved notable breakthroughs in both training and rendering. However, the storage requirements of these methods can reach up to $10$MB per frame, making stream FVV in real-time impossible. To address this problem, we propose a novel FVV representation, dubbed StreamSTGS, designed for real-time streaming. StreamSTGS represents a dynamic scene using canonical 3D Gaussians, temporal features, and a deformation field. For high compression efficiency, we encode canonical Gaussian attributes as 2D images and temporal features as a video. This design not only enables real-time streaming, but also inherently supports adaptive bitrate control based on network condition without any extra training. Moreover, we propose a sliding window scheme to aggregate adjacent temporal features to learn local motions, and then introduce a transformer-guided auxiliary training module to learn global motions. On diverse FVV benchmarks, StreamSTGS demonstrates competitive performance on all metrics compared to state-of-the-art methods. Notably, StreamSTGS increases the PSNR by an average of $1$dB while reducing the average frame size to just $170$KB. The code is publicly available on https://github.com/kkkzh/StreamSTGS.
- Abstract(参考訳): 自由視点映像〜(FVV)をリアルタイムにストリーミングすることは、特にトレーニング、レンダリング、送信効率において大きな課題に直面している。
最近の3DGSに基づくFVV法は3D Gaussian Splatting~(3DGS)の優れた性能を保ち、トレーニングとレンダリングの両方において顕著なブレークスルーを達成している。
しかし、これらの手法のストレージ要件は1フレームあたり最大10$MBに達するため、ストリームFVVをリアルタイムに実行することは不可能である。
この問題に対処するために,リアルタイムストリーミング用に設計されたStreamSTGSと呼ばれる新しいFVV表現を提案する。
StreamSTGSは標準的な3Dガウス、時間的特徴、変形場を用いて動的シーンを表現する。
高圧縮効率を実現するため、標準ガウス属性を2次元画像として符号化し、時間的特徴をビデオとして表現する。
この設計は、リアルタイムストリーミングを可能にするだけでなく、ネットワーク条件に基づく適応ビットレート制御を、余分なトレーニングなしで本質的にサポートしている。
さらに,近接する時間的特徴を集約して局所的な動きを学習するスライディングウインドウスキームを提案し,大域的な動きを学習するための変圧器誘導補助訓練モジュールを提案する。
多様なFVVベンチマークでは、StreamSTGSは最先端の手法と比較して、すべてのメトリクスで競合する性能を示している。
注目すべきは、StreamSTGSがPSNRを平均$dB増加させ、平均フレームサイズを$70$KBに下げることである。
コードはhttps://github.com/kkkzh/StreamSTGSで公開されている。
関連論文リスト
- Speedy Deformable 3D Gaussian Splatting: Fast Rendering and Compression of Dynamic Scenes [57.69608119350651]
動的シーンへの3次元ガウススティング(3DGS)の最近の拡張は、ニューラルネットワークを用いて各ガウスの時間変化変形を予測することによって、高品質な新規ビュー合成を実現する。
しかしながら、ガウス毎のニューラルネットワークを各フレームで実行することは、レンダリング速度を制限し、メモリと計算要求を増大させる、重大なボトルネックとなる。
動的3DGSおよび4DGS表現のレンダリング速度を2つの相補的手法により低減し,高速化する汎用パイプラインであるSpeedy Deformable 3D Gaussian Splatting(SpeeDe3DGS)を提案する。
論文 参考訳(メタデータ) (2025-06-09T16:30:48Z) - Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。
本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。
本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:20:42Z) - QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos [42.554100586090826]
オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。
本稿では,3次元ガウス演算を用いたFVVストリーミングのためのQUantized and Efficient ENcodingのための新しいフレームワークを提案する。
さらに,ガウス位置以外の残差を効果的に定量化するための学習された潜在復号器を含む量子化スパーリティフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-05T18:59:55Z) - Speedy-Splat: Fast 3D Gaussian Splatting with Sparse Pixels and Sparse Primitives [60.217580865237835]
3D Gaussian Splatting (3D-GS)は、3D Gaussian のパラメトリック点雲としてシーンをモデル化することで、新しいビューをリアルタイムにレンダリングすることのできる最近の3Dシーン再構築技術である。
レンダリング速度を大幅に向上させるために、3D-GSにおける2つの重要な非効率を同定し、対処する。
われわれのSpeedy-Splatアプローチはこれらの技術を組み合わせて、Mip-NeRF 360、Turps & Temples、Deep Blendingのデータセットから得られる、劇的な$mathit6.71timesで平均レンダリング速度を加速する。
論文 参考訳(メタデータ) (2024-11-30T20:25:56Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - 3DGStream: On-the-Fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos [10.323643152957114]
3DGStreamは実世界のダイナミックシーンの効率的なFVVストリーミングのために設計された手法である。
提案手法は,12秒以内のフレーム毎の高速な再構築と,200FPSでのリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-03-03T08:42:40Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。