論文の概要: D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS
- arxiv url: http://arxiv.org/abs/2503.05600v1
- Date: Fri, 07 Mar 2025 17:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:31.644553
- Title: D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS
- Title(参考訳): D2GV:400FPSビデオ表現のための変形可能な2Dガウススプラッティング
- Authors: Mufan Liu, Qi Yang, Miaoran Zhao, He Huang, Le Yang, Zhu Li, Yiling Xu,
- Abstract要約: Implicit Representations (INR) はビデオ表現の強力なアプローチとして登場し、圧縮やインペイントといったタスクの多角性を提供する。
本稿では,D2GVと呼ばれる変形可能な2次元ガウススプラッティングに基づく新しい映像表現を提案する。
我々はD2GVの多目的性について,映像表現における有望なソリューションとしての可能性を強調し,映像,ペンキ,デノベーションなどのタスクで実証する。
- 参考スコア(独自算出の注目度): 22.373386953378002
- License:
- Abstract: Implicit Neural Representations (INRs) have emerged as a powerful approach for video representation, offering versatility across tasks such as compression and inpainting. However, their implicit formulation limits both interpretability and efficacy, undermining their practicality as a comprehensive solution. We propose a novel video representation based on deformable 2D Gaussian splatting, dubbed D2GV, which aims to achieve three key objectives: 1) improved efficiency while delivering superior quality; 2) enhanced scalability and interpretability; and 3) increased friendliness for downstream tasks. Specifically, we initially divide the video sequence into fixed-length Groups of Pictures (GoP) to allow parallel training and linear scalability with video length. For each GoP, D2GV represents video frames by applying differentiable rasterization to 2D Gaussians, which are deformed from a canonical space into their corresponding timestamps. Notably, leveraging efficient CUDA-based rasterization, D2GV converges fast and decodes at speeds exceeding 400 FPS, while delivering quality that matches or surpasses state-of-the-art INRs. Moreover, we incorporate a learnable pruning and quantization strategy to streamline D2GV into a more compact representation. We demonstrate D2GV's versatility in tasks including video interpolation, inpainting and denoising, underscoring its potential as a promising solution for video representation. Code is available at: \href{https://github.com/Evan-sudo/D2GV}{https://github.com/Evan-sudo/D2GV}.
- Abstract(参考訳): Inlicit Neural Representations (INR) はビデオ表現の強力なアプローチとして登場し、圧縮やインペイントといったタスクの多角性を提供する。
しかし、それらの暗黙的な定式化は解釈可能性と有効性の両方を制限し、包括的解としての実用性を損なう。
D2GVと呼ばれる変形可能な2Dガウススプラッティングに基づく新しい映像表現を提案する。
1) 優れた品質を提供しつつ効率を向上すること。
2)拡張スケーラビリティと解釈可能性,及び
3) 下流タスクの親しみ度が向上した。
具体的には、まず、ビデオシーケンスを固定長グループ(GoP)に分割し、並列トレーニングとビデオ長による線形スケーラビリティを実現する。
各GoPに対して、D2GVは2Dガウスに微分可能ラスタ化を適用してビデオフレームを表現し、標準空間から対応するタイムスタンプに変形する。
特に、効率的なCUDAベースのラスタライゼーションを活用することで、D2GVは高速に収束し、400 FPSを超える速度でデコードし、最先端のINRにマッチまたは超える品質を提供する。
さらに,よりコンパクトな表現にD2GVを合理化するために,学習可能なプルーニングと量子化の戦略を取り入れた。
映像補間, 塗装, 装飾などのタスクにおけるD2GVの汎用性を実証し, 映像表現の有望なソリューションとしての可能性を示す。
コードは以下の通り。 \href{https://github.com/Evan-sudo/D2GV}{https://github.com/Evan-sudo/D2GV}。
関連論文リスト
- GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはビデオの自動エンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - V^3: Viewing Volumetric Videos on Mobiles via Streamable 2D Dynamic Gaussians [53.614560799043545]
V3 (Viewing Volumetric Videos) は,ダイナミックガウスのストリーミングによる高品質なモバイルレンダリングを実現する,新たなアプローチである。
私たちの重要なイノベーションは、ダイナミックな3DGSを2Dビデオと見なすことで、ハードウェアビデオコーデックの使用を促進することです。
モバイル端末でダイナミックなガウシアンをストリームする最初の手段として、私たちのコンパニオンプレーヤーは、前例のないボリュームビデオ体験をユーザに提供します。
論文 参考訳(メタデータ) (2024-09-20T16:54:27Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。