論文の概要: GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering
- arxiv url: http://arxiv.org/abs/2506.23957v1
- Date: Mon, 30 Jun 2025 15:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.123322
- Title: GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering
- Title(参考訳): GaVS: 時間的に連続した局所再構築とレンダリングによる3D映像の安定化
- Authors: Zinuo You, Stamatios Georgoulis, Anpei Chen, Siyu Tang, Dengxin Dai,
- Abstract要約: ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
- 参考スコア(独自算出の注目度): 54.489285024494855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video stabilization is pivotal for video processing, as it removes unwanted shakiness while preserving the original user motion intent. Existing approaches, depending on the domain they operate, suffer from several issues (e.g. geometric distortions, excessive cropping, poor generalization) that degrade the user experience. To address these issues, we introduce \textbf{GaVS}, a novel 3D-grounded approach that reformulates video stabilization as a temporally-consistent `local reconstruction and rendering' paradigm. Given 3D camera poses, we augment a reconstruction model to predict Gaussian Splatting primitives, and finetune it at test-time, with multi-view dynamics-aware photometric supervision and cross-frame regularization, to produce temporally-consistent local reconstructions. The model are then used to render each stabilized frame. We utilize a scene extrapolation module to avoid frame cropping. Our method is evaluated on a repurposed dataset, instilled with 3D-grounded information, covering samples with diverse camera motions and scene dynamics. Quantitatively, our method is competitive with or superior to state-of-the-art 2D and 2.5D approaches in terms of conventional task metrics and new geometry consistency. Qualitatively, our method produces noticeably better results compared to alternatives, validated by the user study.
- Abstract(参考訳): ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、操作するドメインによって、ユーザエクスペリエンスを劣化させるいくつかの問題(例えば、幾何学的歪み、過剰な収穫、一般化の欠如)に悩まされる。
これらの課題に対処するために,ビデオの安定化を時間的に一貫性のある「局所的再構成とレンダリング」パラダイムとして再構成する,新しい3Dグラウンドアプローチである「textbf{GaVS}」を紹介した。
3次元カメラのポーズを前提として,ガウススプラッティングプリミティブを推定する再構成モデルを拡張し,多視点ダイナミックス対応光度監視とクロスフレーム正規化によりテスト時に微調整し,時間的に一貫性のある局所的再構成を生成する。
モデルを使用して、各安定化フレームをレンダリングする。
我々はフレームの刈り取りを避けるためにシーン外挿モジュールを利用する。
本手法は,3次元グラウンド情報を用いた再構成データセットを用いて,多様なカメラモーションとシーンダイナミックスを用いたサンプルについて評価する。
提案手法は,従来のタスクメトリクスと新しい幾何整合性の観点から,最先端の2Dおよび2.5Dアプローチと競合するか,あるいは優位である。
定性的には,本手法は,ユーザによる検証により,代替案よりも顕著に優れた結果が得られる。
関連論文リスト
- Large-scale visual SLAM for in-the-wild videos [28.58692815339531]
カジュアルビデオから3D再構成を改善するために,ロバストなパイプラインを導入する。
我々は近年の深部視覚計測法を基礎にしているが、いくつかの点で頑健性を高めている。
各種環境におけるオンラインビデオの大規模連続3Dモデルについて紹介する。
論文 参考訳(メタデータ) (2025-04-29T07:37:51Z) - Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.19207713016543]
動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。
アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-26T07:04:20Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors [5.407319151576265]
本研究では2次元画像の粗い集合から360度シーンのポーズなし(カメラパラメータなしで)再構成のための生成的アプローチを提案する。
画像から画像への生成モデルを提案し、3Dシーンの新たな画像レンダリングと深度マップにおいて、欠落した詳細を描き、アーティファクトを除去する。
論文 参考訳(メタデータ) (2024-11-24T19:34:58Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。