Fugu-MT 論文翻訳(概要): Representing Long Volumetric Video with Temporal Gaussian Hierarchy

論文の概要: Representing Long Volumetric Video with Temporal Gaussian Hierarchy

arxiv url: http://arxiv.org/abs/2412.09608v1
Date: Thu, 12 Dec 2024 18:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:57.485377
Title: Representing Long Volumetric Video with Temporal Gaussian Hierarchy
Title（参考訳）: 時空間ガウス階層による長大映像の表現
Authors: Zhen Xu, Yinghao Xu, Zhiyuan Yu, Sida Peng, Jiaming Sun, Hujun Bao, Xiaowei Zhou,
Abstract要約: 本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
参考スコア（独自算出の注目度）: 80.51373034419379
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to address the challenge of reconstructing long volumetric videos from multi-view RGB videos. Recent dynamic view synthesis methods leverage powerful 4D representations, like feature grids or point cloud sequences, to achieve high-quality rendering results. However, they are typically limited to short (1~2s) video clips and often suffer from large memory footprints when dealing with longer videos. To solve this issue, we propose a novel 4D representation, named Temporal Gaussian Hierarchy, to compactly model long volumetric videos. Our key observation is that there are generally various degrees of temporal redundancy in dynamic scenes, which consist of areas changing at different speeds. Motivated by this, our approach builds a multi-level hierarchy of 4D Gaussian primitives, where each level separately describes scene regions with different degrees of content change, and adaptively shares Gaussian primitives to represent unchanged scene content over different temporal segments, thus effectively reducing the number of Gaussian primitives. In addition, the tree-like structure of the Gaussian hierarchy allows us to efficiently represent the scene at a particular moment with a subset of Gaussian primitives, leading to nearly constant GPU memory usage during the training or rendering regardless of the video length. Extensive experimental results demonstrate the superiority of our method over alternative methods in terms of training cost, rendering speed, and storage usage. To our knowledge, this work is the first approach capable of efficiently handling minutes of volumetric video data while maintaining state-of-the-art rendering quality. Our project page is available at: https://zju3dv.github.io/longvolcap.
Abstract（参考訳）: 本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。最近の動的ビュー合成法は、特徴グリッドやポイントクラウドシーケンスのような強力な4次元表現を活用して、高品質なレンダリング結果を得る。しかし、通常は短い(1〜2秒)ビデオクリップに制限されており、長いビデオを扱う際に大きなメモリフットプリントに悩まされることが多い。この問題を解決するために,テンポラルガウシアン階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。我々のキーとなる観察は、動的シーンには一般的に様々な時間的冗長性があり、異なる速度で変化する領域で構成されているということである。提案手法は,4次元ガウスプリミティブのマルチレベル階層を構築し,各レベルが内容変化の度合いの異なるシーン領域を別々に記述し,ガウスプリミティブを適応的に共有し,時間セグメントの異なるシーンコンテンツを表現することにより,ガウスプリミティブの数を効果的に削減する。さらに、ガウス階層のツリーのような構造により、ガウスプリミティブのサブセットで特定の瞬間におけるシーンを効率よく表現することができ、トレーニングやビデオ長にかかわらずほぼ一定のGPUメモリ使用率が得られる。大規模実験により, 訓練コスト, レンダリング速度, ストレージ使用量の観点から, 代替手法よりも優れた結果が得られた。我々の知る限り、この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。私たちのプロジェクトページは以下の通りである。

関連論文リスト

An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
GaussianVideo: Efficient Video Representation via Hierarchical Gaussian Splatting [28.981174430968643]
本稿では,3次元ガウススプラッティングと連続カメラモーションモデリングを組み合わせたニューラル表現を提案する。実験結果から,我々の階層的学習と堅牢なカメラモーションモデリングが組み合わさって,時間的一貫性の強い複雑な動的シーンを捉えていることがわかった。このメモリ効率のアプローチは、印象的な速度で高品質なレンダリングを実現する。
論文参考訳（メタデータ） (2025-01-08T19:01:12Z)
4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes [19.24815625343669]
SaRO-GSはリアルタイムレンダリングを実現する新しい動的シーン表現である。時間的に複雑な動的シーンを扱うために,スケールアウェアなResidual Fieldを導入する。我々の手法は最先端の性能を実証した。
論文参考訳（メタデータ） (2024-12-09T08:44:19Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文参考訳（メタデータ） (2024-08-07T14:56:34Z)
A Hierarchical 3D Gaussian Representation for Real-Time Rendering of Very Large Datasets [45.13531064740826]
非常に大きなシーンの視覚的品質を保った3次元ガウスの階層構造を導入する。遠隔コンテンツの効率的なレンダリングのための効率的なレベル・オブ・ディーテール(LOD)ソリューションを提供する。単純で手頃な価格のリグで、最大数万の画像をキャプチャしたシーンの結果を示す。
論文参考訳（メタデータ） (2024-06-17T20:40:18Z)
VastGaussian: Vast 3D Gaussians for Large Scene Reconstruction [59.40711222096875]
VastGaussianは3次元ガウススティングに基づく大規模シーンにおける高品質な再構成とリアルタイムレンダリングのための最初の方法である。提案手法は既存のNeRF手法より優れており,複数の大規模シーンデータセットの最先端結果が得られる。
論文参考訳（メタデータ） (2024-02-27T11:40:50Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-06T16:42:22Z)
Frame-wise Action Representations for Long Videos via Sequence Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文参考訳（メタデータ） (2022-03-28T17:59:54Z)
Efficient training for future video generation based on hierarchical disentangled representation of latent variables [66.94698064734372]
本稿では,従来の手法よりも少ないメモリ使用量で将来予測ビデオを生成する新しい手法を提案する。 1)映像フレームを潜伏変数にエンコードする画像再構成と,2)将来的なシーケンスを生成するための潜伏変数予測である。提案手法は,従来の手法では処理できない複雑なデータセットであっても,将来予測ビデオを効率的に生成できることを示す。
論文参考訳（メタデータ） (2021-06-07T10:43:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。