論文の概要: Versatile Video Tokenization with Generative 2D Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2508.11183v1
- Date: Fri, 15 Aug 2025 03:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.726281
- Title: Versatile Video Tokenization with Generative 2D Gaussian Splatting
- Title(参考訳): 生成型2次元ガウススプラッティングによる可逆的ビデオトークン化
- Authors: Zhenghao Chen, Zicong Chen, Lei Liu, Yiming Wu, Dong Xu,
- Abstract要約: ビデオトランスフォーマー(英: Video Transformer、GVT)は、2Dガウシアン・スプレイティング・ストラテジーをベースとした多用途ビデオトークンである。
GVTはベースライン・オブ・ザ・アーティカルなビデオ品質を実現し、動作認識においてMAGVIT-v2を上回っ、同等の圧縮性能を提供する。
- 参考スコア(独自算出の注目度): 21.242557918885012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video tokenization procedure is critical for a wide range of video processing tasks. Most existing approaches directly transform video into fixed-grid and patch-wise tokens, which exhibit limited versatility. Spatially, uniformly allocating a fixed number of tokens often leads to over-encoding in low-information regions. Temporally, reducing redundancy remains challenging without explicitly distinguishing between static and dynamic content. In this work, we propose the Gaussian Video Transformer (GVT), a versatile video tokenizer built upon a generative 2D Gaussian Splatting (2DGS) strategy. We first extract latent rigid features from a video clip and represent them with a set of 2D Gaussians generated by our proposed Spatio-Temporal Gaussian Embedding (STGE) mechanism in a feed-forward manner. Such generative 2D Gaussians not only enhance spatial adaptability by assigning higher (resp., lower) rendering weights to regions with higher (resp., lower) information content during rasterization, but also improve generalization by avoiding per-video optimization.To enhance the temporal versatility, we introduce a Gaussian Set Partitioning (GSP) strategy that separates the 2D Gaussians into static and dynamic sets, which explicitly model static content shared across different time-steps and dynamic content specific to each time-step, enabling a compact representation.We primarily evaluate GVT on the video reconstruction, while also assessing its performance on action recognition and compression using the UCF101, Kinetics, and DAVIS datasets. Extensive experiments demonstrate that GVT achieves a state-of-the-art video reconstruction quality, outperforms the baseline MAGVIT-v2 in action recognition, and delivers comparable compression performance.
- Abstract(参考訳): ビデオトークン化手順は、幅広いビデオ処理タスクに不可欠である。
既存のほとんどのアプローチは、ビデオを直接固定グリッドおよびパッチワイドトークンに変換する。
空間的に、一定数のトークンを均一に割り当てると、低情報領域のオーバーエンコーディングにつながることが多い。
時として、静的コンテンツと動的コンテンツを明確に区別することなく、冗長性を減らすことは依然として困難である。
本研究では,ガウスビデオ変換器(Gaussian Video Transformer, GVT)を提案する。
まず,ビデオクリップから遅延剛性特徴を抽出し,提案した時空間ガウスエンベディング(STGE)機構によって生成された2次元ガウスアンをフィードフォワード方式で表現する。
このような生成的2Dガウスアンは、ラスタ化時に高い(resp.,low)レンダリング重みを高い(resp.,low)情報内容の領域に割り当てることで空間適応性を高めるだけでなく、映像ごとの最適化を回避して一般化も向上させるとともに、時間的多面性を高めるため、2Dガウスアンを静的・動的セットに分離するガウス集合分割(GSP)戦略を導入し、異なる時間ステップと各時間ステップで共有される動的コンテンツを明示的にモデル化し、コンパクトな表現を可能にする。
大規模な実験により、GVTは最先端のビデオ再構成の品質を達成し、アクション認識においてベースラインのMAGVIT-v2を上回っ、同等の圧縮性能を提供することが示された。
関連論文リスト
- D-FCGS: Feedforward Compression of Dynamic Gaussian Splatting for Free-Viewpoint Videos [12.24209693552492]
自由視点ビデオ(FVV)は没入型3D体験を可能にするが、動的3D表現の効率的な圧縮は依然として大きな課題である。
本稿では,時間的に相関したガウス点雲列を圧縮する新しいフィードフォワードフレームワークである動的ガウス散乱(D-FCGS)のフィードフォワード圧縮を提案する。
実験の結果,最適化手法の速度歪み特性と一致し,40倍以上の圧縮を2秒以内で達成した。
論文 参考訳(メタデータ) (2025-07-08T10:39:32Z) - D2GV: Deformable 2D Gaussian Splatting for Video Representation in 400FPS [22.373386953378002]
Implicit Representations (INR) はビデオ表現の強力なアプローチとして登場し、圧縮やインペイントといったタスクの多角性を提供する。
本稿では,D2GVと呼ばれる変形可能な2次元ガウススプラッティングに基づく新しい映像表現を提案する。
我々はD2GVの多目的性について,映像表現における有望なソリューションとしての可能性を強調し,映像,ペンキ,デノベーションなどのタスクで実証する。
論文 参考訳(メタデータ) (2025-03-07T17:26:27Z) - GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - Efficient Gaussian Splatting for Monocular Dynamic Scene Rendering via Sparse Time-Variant Attribute Modeling [64.84686527988809]
Deformable Gaussian Splattingは、現実世界のダイナミックなシーンを表現する堅牢なソリューションとして登場した。
提案手法は,古典的カーネル表現を用いて計算された密度ガウスの運動流を用いて,スパースアンカーグリッド表現を用いて動的シーンを定式化する。
2つの実世界のデータセットの実験により、EDGSはレンダリング速度を大幅に改善し、より優れたレンダリング品質を実現しています。
論文 参考訳(メタデータ) (2025-02-27T18:53:06Z) - VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。
構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。
実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文 参考訳(メタデータ) (2024-12-23T17:16:58Z) - Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。
本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。
この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文 参考訳(メタデータ) (2024-12-12T18:59:34Z) - MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo [54.00987996368157]
MVSGaussianは、Multi-View Stereo(MVS)から導かれる新しい一般化可能な3次元ガウス表現手法である。
MVSGaussianは、シーンごとにより良い合成品質でリアルタイムレンダリングを実現する。
論文 参考訳(メタデータ) (2024-05-20T17:59:30Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。