論文の概要: Tracking by Predicting 3-D Gaussians Over Time
- arxiv url: http://arxiv.org/abs/2512.22489v1
- Date: Sat, 27 Dec 2025 06:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.08246
- Title: Tracking by Predicting 3-D Gaussians Over Time
- Title(参考訳): 時間とともに3Dガウスを予測して追跡する
- Authors: Tanish Baranwal, Himanshu Gaurav Singh, Jathushan Rajasegaran, Jitendra Malik,
- Abstract要約: Video-GMAEは、画像列を時間とともに移動するガウススプラッターのセットにエンコードする。
このアーキテクチャでネットワークを事前訓練すると、トラッキングが出現する。
小型の微調整により、我々のモデルはKineeticsで34.6%、Kubricデータセットで13.1%向上した。
- 参考スコア(独自算出の注目度): 36.74743544147803
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Video Gaussian Masked Autoencoders (Video-GMAE), a self-supervised approach for representation learning that encodes a sequence of images into a set of Gaussian splats moving over time. Representing a video as a set of Gaussians enforces a reasonable inductive bias: that 2-D videos are often consistent projections of a dynamic 3-D scene. We find that tracking emerges when pretraining a network with this architecture. Mapping the trajectory of the learnt Gaussians onto the image plane gives zero-shot tracking performance comparable to state-of-the-art. With small-scale finetuning, our models achieve 34.6% improvement on Kinetics, and 13.1% on Kubric datasets, surpassing existing self-supervised video approaches. The project page and code are publicly available at https://videogmae.org/ and https://github.com/tekotan/video-gmae.
- Abstract(参考訳): 本稿では,画像列を時間とともに移動するガウススプラペットの集合に符号化する表現学習のための自己教師型手法であるビデオガウス仮面オートエンコーダ(Video-GMAE)を提案する。
映像をガウスの集合として表現することは、合理的な帰納的バイアスを強制する: 2Dビデオは、しばしばダイナミックな3Dシーンの一貫性のある投影である。
このアーキテクチャでネットワークを事前訓練すると、トラッキングが出現する。
学習したガウスの軌跡をイメージプレーンにマッピングすると、ゼロショット追跡性能は最先端技術に匹敵する。
小型の微調整により、我々のモデルはKineeticsで34.6%、Kubricデータセットで13.1%向上し、既存のセルフ教師付きビデオアプローチを上回りました。
プロジェクトページとコードはhttps://videogmae.org/とhttps://github.com/tekotan/video-gmaeで公開されている。
関連論文リスト
- GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting [3.479384894190067]
本稿では,映像フレームを効果的に表現・圧縮できる2次元ガウススプレートの集合を学習するためのGSVCを提案する。
実験の結果,GSVCは最先端のビデオコーデックに匹敵する,良好な速度歪みトレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2025-01-21T11:30:51Z) - GaussianAD: Gaussian-Centric End-to-End Autonomous Driving [23.71316979650116]
視覚に基づく自動運転は、十分な性能と低コストのために大きな可能性を秘めている。
既存のほとんどの方法は、決定のために密度の高い表現(例えば鳥の眼図)やスパース表現(例箱)を採用する。
本稿では、ガウス中心のエンドツーエンド自動運転フレームワークを探求し、3Dセマンティックガウスを利用して、そのシーンを広義に記述する。
論文 参考訳(メタデータ) (2024-12-13T18:59:30Z) - Dynamic Gaussian Marbles for Novel View Synthesis of Casual Monocular Videos [58.22272760132996]
既存の4次元ガウス法は単分子配置が制約されていないため、この設定で劇的に失敗することを示す。
単分子配置の難易度を目標とした3つのコア修正からなる動的ガウス大理石を提案する。
Nvidia Dynamic ScenesデータセットとDyCheck iPhoneデータセットを評価し,Gaussian Marblesが他のGaussianベースラインを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-26T19:37:07Z) - Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。