論文の概要: GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2501.12060v2
- Date: Wed, 22 Jan 2025 17:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:30:33.724220
- Title: GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting
- Title(参考訳): GSVC: 2Dガウスによる効率的な映像表現と圧縮
- Authors: Longan Wang, Yuang Shi, Wei Tsang Ooi,
- Abstract要約: 本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
- 参考スコア(独自算出の注目度): 3.479384894190067
- License:
- Abstract: 3D Gaussian splats have emerged as a revolutionary, effective, learned representation for static 3D scenes. In this work, we explore using 2D Gaussian splats as a new primitive for representing videos. We propose GSVC, an approach to learning a set of 2D Gaussian splats that can effectively represent and compress video frames. GSVC incorporates the following techniques: (i) To exploit temporal redundancy among adjacent frames, which can speed up training and improve the compression efficiency, we predict the Gaussian splats of a frame based on its previous frame; (ii) To control the trade-offs between file size and quality, we remove Gaussian splats with low contribution to the video quality; (iii) To capture dynamics in videos, we randomly add Gaussian splats to fit content with large motion or newly-appeared objects; (iv) To handle significant changes in the scene, we detect key frames based on loss differences during the learning process. Experiment results show that GSVC achieves good rate-distortion trade-offs, comparable to state-of-the-art video codecs such as AV1 and VVC, and a rendering speed of 1500 fps for a 1920x1080 video.
- Abstract(参考訳): 3Dガウスのスプラッターは、静的な3Dシーンの革命的で効果的で学習された表現として登場した。
本研究では,ビデオ表現のための新しいプリミティブとして2次元ガウシアンスプラットを用いて検討する。
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
GSVCは以下のテクニックを取り入れている。
一 隣接するフレーム間の時間的冗長性を生かし、トレーニングの高速化と圧縮効率の向上を図るため、フレームのガウススプレートを以前のフレームに基づいて予測する。
(二)ファイルサイズと品質のトレードオフを制御するため、映像品質への貢献度が低いガウス版を除去する。
3)動画のダイナミックスをキャプチャするために、ガウスのスプラットをランダムに追加して、大きな動きや新たに現れた物体に適合させる。
(4)シーンの大幅な変化に対処するため,学習過程における損失差に基づいてキーフレームを検出する。
AV1やVVCのような最先端のビデオコーデックに匹敵する速度歪みのトレードオフを実現し、1920×1080ビデオのレンダリング速度は1500fpsであることを示す実験結果が得られた。
関連論文リスト
- VeGaS: Video Gaussian Splatting [0.42881773214459123]
本稿では,映像データの現実的な修正を可能にするVeGaS(VeGaS)モデルを提案する。
VeGaSはフレーム再構築タスクにおいて最先端のソリューションよりも優れています。
論文 参考訳(メタデータ) (2024-11-17T10:02:36Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - Fine-gained Zero-shot Video Sampling [21.42513407755273]
我々は,$mathcalZS2$と表記されるZero-Shotビデオサンプリングアルゴリズムを提案する。
$mathcalZS2$は、トレーニングや最適化なしに高品質のビデオクリップを直接サンプリングすることができる。
ゼロショットビデオ生成における最先端のパフォーマンスを達成し、時々最新の教師付き手法よりも優れる。
論文 参考訳(メタデータ) (2024-07-31T09:36:58Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。