論文の概要: GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.04333v1
- Date: Thu, 06 Mar 2025 11:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:29.166268
- Title: GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting
- Title(参考訳): ガウシアン・ビデオ:ガウシアン・スプレイティングによる効率的なビデオ表現と圧縮
- Authors: Inseo Lee, Youngyoon Choi, Joonseok Lee,
- Abstract要約: Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
- 参考スコア(独自算出の注目度): 10.568851068989973
- License:
- Abstract: Implicit Neural Representation for Videos (NeRV) has introduced a novel paradigm for video representation and compression, outperforming traditional codecs. As model size grows, however, slow encoding and decoding speed and high memory consumption hinder its application in practice. To address these limitations, we propose a new video representation and compression method based on 2D Gaussian Splatting to efficiently handle video data. Our proposed deformable 2D Gaussian Splatting dynamically adapts the transformation of 2D Gaussians at each frame, significantly reducing memory cost. Equipped with a multi-plane-based spatiotemporal encoder and a lightweight decoder, it predicts changes in color, coordinates, and shape of initialized Gaussians, given the time step. By leveraging temporal gradients, our model effectively captures temporal redundancy at negligible cost, significantly enhancing video representation efficiency. Our method reduces GPU memory usage by up to 78.4%, and significantly expedites video processing, achieving 5.5x faster training and 12.5x faster decoding compared to the state-of-the-art NeRV methods.
- Abstract(参考訳): Implicit Neural Representation for Videos (NeRV)は、ビデオ表現と圧縮のための新しいパラダイムを導入し、従来のコーデックより優れている。
しかし、モデルのサイズが大きくなるにつれて、符号化速度と復号化速度が遅くなり、メモリ消費が大きくなると、実際にその応用が妨げられる。
これらの制約に対処するために,2次元ガウススプラッティングに基づく新しい映像表現と圧縮手法を提案し,映像データの効率よく処理する。
提案した変形可能な2次元ガウススプラッティングは,各フレームにおける2次元ガウス変換を動的に適用し,メモリコストを大幅に削減する。
多面体ベースの時空間エンコーダと軽量デコーダを備え、時間ステップに応じて初期化ガウスの色、座標、形状の変化を予測する。
時間的勾配を利用して,時間的冗長性を無視可能なコストで効果的に把握し,映像表現効率を大幅に向上させる。
提案手法はGPUメモリ使用量を最大78.4%削減し,ビデオ処理を著しく高速化し,最新のNeRV方式に比べて5.5倍,12.5倍高速デコードを実現した。
関連論文リスト
- Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes [49.36091070642661]
本稿では,4DGSのためのメモリ効率フレームワークを提案する。
TechnicolorとNeural 3D Videoのデータセットで約190$times$と125$times$のストレージ削減を実現している。
レンダリング速度とシーン表現の品質を維持し、フィールドに新しい標準を設定する。
論文 参考訳(メタデータ) (2024-10-17T14:47:08Z) - Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting [27.33121386538575]
Inlicit Neural representations (INRs) は画像の表現と圧縮で大成功を収めた。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
本稿では,2次元ガウススプラッティングによる画像表現と圧縮の基盤となるパラダイムであるガウス画像を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:02:54Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS [40.94643885302646]
3Dガウシアンスプラッティング(3D-GS)は、ノベルビューシーンの合成で人気がある。
レイディアンス・ニューラル・フィールド(NeRF)に関連する長いトレーニング時間と遅いレンダリング速度の課題に対処する。
本稿では,メモリ単位の記憶容量を大幅に削減するために,量子化埋め込みを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:55Z) - HiFi4G: High-Fidelity Human Performance Rendering via Compact Gaussian
Splatting [48.59338619051709]
HiFi4Gは、高密度映像からの高忠実度人間パフォーマンスレンダリングのための、明示的でコンパクトなガウスベースのアプローチである。
圧縮速度は25回程度で、1フレームあたり2MB未満である。
論文 参考訳(メタデータ) (2023-12-06T12:36:53Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。