Fugu-MT 論文翻訳(概要): STGV: Spatio-Temporal Hash Encoding for Gaussian-based Video Representation

論文の概要: STGV: Spatio-Temporal Hash Encoding for Gaussian-based Video Representation

arxiv url: http://arxiv.org/abs/2604.10910v2
Date: Tue, 14 Apr 2026 02:52:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-15 14:01:13.414085
Title: STGV: Spatio-Temporal Hash Encoding for Gaussian-based Video Representation
Title（参考訳）: STGV: ガウス映像表現のための時空間ハッシュ符号化
Authors: Jierun Lin, Jiacong Chen, Qingyu Mao, Shuai Liu, Xiandong Meng, Fanyang Meng, Yongsheng Liang,
Abstract要約: 2DGSは最近、高品質なビデオ表現のための有望なパラダイムになっている。本稿では,ガウス・テンポラルビデオ表現(STGV)のためのフレームワークを提案する。提案手法は,ガウス方式の他の手法に対して,より優れた映像表現品質(+PSN)を実現し,下流映像タスクにおける競争性能を実現する。
参考スコア（独自算出の注目度）: 44.219307092626046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 2D Gaussian Splatting (2DGS) has recently become a promising paradigm for high-quality video representation. However, existing methods employ content-agnostic or spatio-temporal feature overlapping embeddings to predict canonical Gaussian primitive deformations, which entangles static and dynamic components in videos and prevents modeling their distinct properties effectively. These result in inaccurate predictions for spatio-temporal deformations and unsatisfactory representation quality. To address these problems, this paper proposes a Spatio-Temporal hash encoding framework for Gaussian-based Video representation (STGV). By decomposing video features into learnable 2D spatial and 3D temporal hash encodings, STGV effectively facilitates the learning of motion patterns for dynamic components while maintaining background details for static elements. In addition, we construct a more stable and consistent initial canonical Gaussian representation through a key frame canonical initialization strategy, preventing from feature overlapping and a structurally incoherent geometry representation. Experimental results demonstrate that our method attains better video representation quality (+0.98 PSNR) against other Gaussian-based methods and achieves competitive performance in downstream video tasks.
Abstract（参考訳）: 2D Gaussian Splatting (2DGS)は、最近、高品質なビデオ表現のための有望なパラダイムとなっている。しかし、既存の手法では、ビデオ中の静的成分と動的成分を絡み合わせ、それらの異なる性質を効果的にモデル化しない、標準的なガウス的原始変形を予測するために、コンテンツ非依存的または時空間的特徴重畳を用いた。その結果, 時空間変形の予測精度が低下し, 表現品質が低下することがわかった。本稿では,ガウス映像表現のための時空間ハッシュ符号化フレームワークを提案する。ビデオ特徴を学習可能な2次元空間および3次元時間ハッシュエンコーディングに分解することにより、STGVは静的要素の背景詳細を維持しつつ、動的コンポーネントの動作パターンの学習を効果的に行うことができる。さらに、キーフレームの正準初期化戦略により、より安定で一貫した初期標準ガウス表現を構築し、特徴重なりと構造的に不整合な幾何表現を防止する。実験結果から,本手法は他のガウス方式に比べて高画質(+0.98 PSNR)を実現し,下流映像タスクの競争性能が向上することが示された。

関連論文リスト

Contour Information Aware 2D Gaussian Splatting for Image Representation [0.0]
本稿では,Contour Information-Aware 2D Gaussian Splattingフレームワークを提案する。提案手法は,既存の2DGS法と比較して,オブジェクトエッジ周辺の再現性が高い。
論文参考訳（メタデータ） (2025-12-29T07:24:36Z)
Back to the Feature: Explaining Video Classifiers with Video Counterfactual Explanations [11.039713164587456]
対実的説明(英: Counterfactual explanations, CFE)は、モデル予測を変化させるモデルの入力を最小かつ意味的に意味のある修正である。カウンターファクトビデオが有用であるためには、それらは物理的に妥当で、時間的に一貫性があり、スムーズな動きの軌跡を示す必要がある。我々はビデオCFEを生成する最適化フレームワークであるBack To The Feature (BTTF)を提案する。
論文参考訳（メタデータ） (2025-11-25T13:31:30Z)
Versatile Video Tokenization with Generative 2D Gaussian Splatting [21.242557918885012]
ビデオトランスフォーマー(英: Video Transformer、GVT)は、2Dガウシアン・スプレイティング・ストラテジーをベースとした多用途ビデオトークンである。 GVTはベースライン・オブ・ザ・アーティカルなビデオ品質を実現し、動作認識においてMAGVIT-v2を上回っ、同等の圧縮性能を提供する。
論文参考訳（メタデータ） (2025-08-15T03:16:45Z)
4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes [19.24815625343669]
SaRO-GSはリアルタイムレンダリングを実現する新しい動的シーン表現である。時間的に複雑な動的シーンを扱うために,スケールアウェアなResidual Fieldを導入する。我々の手法は最先端の性能を実証した。
論文参考訳（メタデータ） (2024-12-09T08:44:19Z)
DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文参考訳（メタデータ） (2024-11-18T05:49:16Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文参考訳（メタデータ） (2023-11-20T12:08:23Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。