論文の概要: GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field
- arxiv url: http://arxiv.org/abs/2507.05594v1
- Date: Tue, 08 Jul 2025 02:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.482356
- Title: GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field
- Title(参考訳): GSVR:ハイブリッド変形場を有する800FPS用2次元ガウス映像表現
- Authors: Zhizhuo Pang, Zhihui Ke, Xiaobo Zhou, Tie Qiu,
- Abstract要約: ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。
本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。
本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
- 参考スコア(独自算出の注目度): 7.977026024810772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Implicit neural representations for video have been recognized as a novel and promising form of video representation. Existing works pay more attention to improving video reconstruction quality but little attention to the decoding speed. However, the high computation of convolutional network used in existing methods leads to low decoding speed. Moreover, these convolution-based video representation methods also suffer from long training time, about 14 seconds per frame to achieve 35+ PSNR on Bunny. To solve the above problems, we propose GSVR, a novel 2D Gaussian-based video representation, which achieves 800+ FPS and 35+ PSNR on Bunny, only needing a training time of $2$ seconds per frame. Specifically, we propose a hybrid deformation field to model the dynamics of the video, which combines two motion patterns, namely the tri-plane motion and the polynomial motion, to deal with the coupling of camera motion and object motion in the video. Furthermore, we propose a Dynamic-aware Time Slicing strategy to adaptively divide the video into multiple groups of pictures(GOP) based on the dynamic level of the video in order to handle large camera motion and non-rigid movements. Finally, we propose quantization-aware fine-tuning to avoid performance reduction after quantization and utilize image codecs to compress Gaussians to achieve a compact representation. Experiments on the Bunny and UVG datasets confirm that our method converges much faster than existing methods and also has 10x faster decoding speed compared to other methods. Our method has comparable performance in the video interpolation task to SOTA and attains better video compression performance than NeRV.
- Abstract(参考訳): ビデオの暗黙の神経表現は、ビデオ表現の斬新で有望な形式として認識されている。
既存の作品はビデオ再構成の品質向上に注意を払うが、復号速度にはほとんど注意を払わない。
しかし、既存の手法で使用される畳み込みネットワークの高速計算は、復号速度を低下させる。
さらに、これらの畳み込みに基づくビデオ表現法は、Bunny上で35以上のPSNRを達成するために、1フレームあたり約14秒の長いトレーニング時間に悩まされる。
以上の問題を解決するために,新しい2次元ガウス映像表現であるGSVRを提案し,バニーで800FPS以上,35PSNR以上を達成し,フレームあたり2ドル秒のトレーニング時間しか必要としない。
具体的には、映像中のカメラの動きと物体の動きの結合に対処するために、三面運動と多項式運動という2つの動きパターンを組み合わせた動画のダイナミクスをモデル化するハイブリッド変形場を提案する。
さらに,ビデオのダイナミックなレベルに基づいて映像を複数のグループに適応的に分割する動的時間スライシング手法を提案する。
最後に、量子化後の性能低下を回避するために量子化対応微調整を提案し、画像コーデックを用いてガウス圧縮を行い、コンパクトな表現を実現する。
BunnyおよびUVGデータセットの実験により、我々の手法は既存の手法よりもはるかに高速に収束し、他の手法に比べて10倍高速な復号速度を持つことを確認した。
本手法は,ビデオ補間作業においてSOTAに匹敵する性能を有し,NeRVよりも優れた圧縮性能を実現する。
関連論文リスト
- Efficient Neural Video Representation with Temporally Coherent Modulation [6.339750087526286]
Inlicit Neural representations (INR) は様々な分野にまたがって成功している。
本稿では,映像の動的特徴を捉える新しいフレームワークである時間的コヒーレント変調(NVTM)を用いたニューラルビデオ表現を提案する。
本フレームワークは,時間的に時間的に対応可能な画素を一度に実現し,ビデオ品質の適切な符号化速度を実現する。
論文 参考訳(メタデータ) (2025-05-01T06:20:42Z) - D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS [22.373386953378002]
Implicit Representations (INR) はビデオ表現の強力なアプローチとして登場し、圧縮やインペイントといったタスクの多角性を提供する。
本稿では,D2GVと呼ばれる変形可能な2次元ガウススプラッティングに基づく新しい映像表現を提案する。
我々はD2GVの多目的性について,映像表現における有望なソリューションとしての可能性を強調し,映像,ペンキ,デノベーションなどのタスクで実証する。
論文 参考訳(メタデータ) (2025-03-07T17:26:27Z) - GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - Fast Encoding and Decoding for Implicit Video Representation [88.43612845776265]
本稿では,高速エンコーディングのためのトランスフォーマーベースのハイパーネットワークであるNeRV-Encと,効率的なビデオローディングのための並列デコーダであるNeRV-Decを紹介する。
NeRV-Encは勾配ベースの最適化をなくすことで$mathbf104times$の素晴らしいスピードアップを実現している。
NeRV-Decはビデオデコーディングを単純化し、ロード速度が$mathbf11times$で従来のコーデックよりも高速である。
論文 参考訳(メタデータ) (2024-09-28T18:21:52Z) - Towards Scalable Neural Representation for Diverse Videos [68.73612099741956]
Inlicit Neural representations (INR)は、3Dシーンや画像の表現において注目を集めている。
既存のINRベースの手法は、冗長な視覚コンテンツを持つ短いビデオの符号化に限られている。
本稿では,多種多様な視覚コンテンツを持つ長編・多作ビデオの符号化のためのニューラル表現の開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。