論文の概要: GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2503.04333v1
- Date: Thu, 06 Mar 2025 11:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.799865
- Title: GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting
- Title(参考訳): ガウシアン・ビデオ:ガウシアン・スプレイティングによる効率的なビデオ表現と圧縮
- Authors: Inseo Lee, Youngyoon Choi, Joonseok Lee,
- Abstract要約: Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
- 参考スコア(独自算出の注目度): 10.568851068989973
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Implicit Neural Representation for Videos (NeRV) has introduced a novel paradigm for video representation and compression, outperforming traditional codecs. As model size grows, however, slow encoding and decoding speed and high memory consumption hinder its application in practice. To address these limitations, we propose a new video representation and compression method based on 2D Gaussian Splatting to efficiently handle video data. Our proposed deformable 2D Gaussian Splatting dynamically adapts the transformation of 2D Gaussians at each frame, significantly reducing memory cost. Equipped with a multi-plane-based spatiotemporal encoder and a lightweight decoder, it predicts changes in color, coordinates, and shape of initialized Gaussians, given the time step. By leveraging temporal gradients, our model effectively captures temporal redundancy at negligible cost, significantly enhancing video representation efficiency. Our method reduces GPU memory usage by up to 78.4%, and significantly expedites video processing, achieving 5.5x faster training and 12.5x faster decoding compared to the state-of-the-art NeRV methods.
- Abstract(参考訳): Implicit Neural Representation for Videos (NeRV)は、ビデオ表現と圧縮のための新しいパラダイムを導入し、従来のコーデックより優れている。
しかし、モデルのサイズが大きくなるにつれて、符号化速度と復号化速度が遅くなり、メモリ消費が大きくなると、実際にその応用が妨げられる。
これらの制約に対処するために,2次元ガウススプラッティングに基づく新しい映像表現と圧縮手法を提案し,映像データの効率よく処理する。
提案した変形可能な2次元ガウススプラッティングは,各フレームにおける2次元ガウス変換を動的に適用し,メモリコストを大幅に削減する。
多面体ベースの時空間エンコーダと軽量デコーダを備え、時間ステップに応じて初期化ガウスの色、座標、形状の変化を予測する。
時間的勾配を利用して,時間的冗長性を無視可能なコストで効果的に把握し,映像表現効率を大幅に向上させる。
提案手法はGPUメモリ使用量を最大78.4%削減し,ビデオ処理を著しく高速化し,最新のNeRV方式に比べて5.5倍,12.5倍高速デコードを実現した。
関連論文リスト
- Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。
本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。
本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:20:42Z) - 4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video [56.04182926886754]
3D Gaussian Splatting (3DGS)は、フォトリアリスティック・フリー・ビューポイント・ビデオ(FVV)体験を可能にする大きな可能性を秘めている。
既存の方法は、動的3DGS表現と圧縮を別々に扱うのが一般的である。
本稿では,FVVのRD性能を向上しつつ,ストレージサイズを大幅に削減するレート対応4Dガウス圧縮フレームワークである4DGCを提案する。
論文 参考訳(メタデータ) (2025-03-24T08:05:27Z) - Toward Lightweight and Fast Decoders for Diffusion Models in Image and Video Generation [0.0]
大きな変分オートエンコーダデコーダは、生成を遅くし、かなりのGPUメモリを消費することができる。
軽量なVision Transformer と Taming Transformer アーキテクチャを用いたカスタムトレーニングデコーダを提案する。
COCO 2017では、画像生成の全体的なスピードアップが最大15%、サブモジュールでのデコーディングが最大20倍、ビデオタスクのUCF-101がさらに向上している。
論文 参考訳(メタデータ) (2025-03-06T16:21:49Z) - GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - MEGA: Memory-Efficient 4D Gaussian Splatting for Dynamic Scenes [49.36091070642661]
本稿では,4DGSのためのメモリ効率フレームワークを提案する。
TechnicolorとNeural 3D Videoのデータセットで約190$times$と125$times$のストレージ削減を実現している。
レンダリング速度とシーン表現の品質を維持し、フィールドに新しい標準を設定する。
論文 参考訳(メタデータ) (2024-10-17T14:47:08Z) - Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting [27.33121386538575]
Inlicit Neural representations (INRs) は画像の表現と圧縮で大成功を収めた。
しかし、この要件は、メモリが限られているローエンドデバイスでの使用を妨げることが多い。
本稿では,2次元ガウススプラッティングによる画像表現と圧縮の基盤となるパラダイムであるガウス画像を提案する。
論文 参考訳(メタデータ) (2024-03-13T14:02:54Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - EAGLES: Efficient Accelerated 3D Gaussians with Lightweight EncodingS [40.94643885302646]
3Dガウシアンスプラッティング(3D-GS)は、ノベルビューシーンの合成で人気がある。
レイディアンス・ニューラル・フィールド(NeRF)に関連する長いトレーニング時間と遅いレンダリング速度の課題に対処する。
本稿では,メモリ単位の記憶容量を大幅に削減するために,量子化埋め込みを利用する手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:55Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。