論文の概要: GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering
- arxiv url: http://arxiv.org/abs/2506.23957v2
- Date: Fri, 18 Jul 2025 09:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 14:37:15.894655
- Title: GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering
- Title(参考訳): GaVS: 時間的に連続した局所再構築とレンダリングによる3D映像の安定化
- Authors: Zinuo You, Stamatios Georgoulis, Anpei Chen, Siyu Tang, Dengxin Dai,
- Abstract要約: ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
- 参考スコア(独自算出の注目度): 54.489285024494855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video stabilization is pivotal for video processing, as it removes unwanted shakiness while preserving the original user motion intent. Existing approaches, depending on the domain they operate, suffer from several issues (e.g. geometric distortions, excessive cropping, poor generalization) that degrade the user experience. To address these issues, we introduce \textbf{GaVS}, a novel 3D-grounded approach that reformulates video stabilization as a temporally-consistent `local reconstruction and rendering' paradigm. Given 3D camera poses, we augment a reconstruction model to predict Gaussian Splatting primitives, and finetune it at test-time, with multi-view dynamics-aware photometric supervision and cross-frame regularization, to produce temporally-consistent local reconstructions. The model are then used to render each stabilized frame. We utilize a scene extrapolation module to avoid frame cropping. Our method is evaluated on a repurposed dataset, instilled with 3D-grounded information, covering samples with diverse camera motions and scene dynamics. Quantitatively, our method is competitive with or superior to state-of-the-art 2D and 2.5D approaches in terms of conventional task metrics and new geometry consistency. Qualitatively, our method produces noticeably better results compared to alternatives, validated by the user study.
- Abstract(参考訳): ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、操作するドメインによって、ユーザエクスペリエンスを劣化させるいくつかの問題(例えば、幾何学的歪み、過剰な収穫、一般化の欠如)に悩まされる。
これらの課題に対処するために,ビデオの安定化を時間的に一貫性のある「局所的再構成とレンダリング」パラダイムとして再構成する,新しい3Dグラウンドアプローチである「textbf{GaVS}」を紹介した。
3次元カメラのポーズを前提として,ガウススプラッティングプリミティブを推定する再構成モデルを拡張し,多視点ダイナミックス対応光度監視とクロスフレーム正規化によりテスト時に微調整し,時間的に一貫性のある局所的再構成を生成する。
モデルを使用して、各安定化フレームをレンダリングする。
我々はフレームの刈り取りを避けるためにシーン外挿モジュールを利用する。
本手法は,3次元グラウンド情報を用いた再構成データセットを用いて,多様なカメラモーションとシーンダイナミックスを用いたサンプルについて評価する。
提案手法は,従来のタスクメトリクスと新しい幾何整合性の観点から,最先端の2Dおよび2.5Dアプローチと競合するか,あるいは優位である。
定性的には,本手法は,ユーザによる検証により,代替案よりも顕著に優れた結果が得られる。
関連論文リスト
- Revisiting an Old Perspective Projection for Monocular 3D Morphable Models Regression [0.0]
本稿では,モノクル3次元モーフィブルモデル(3DMM)回帰法のための新しいカメラモデルを提案する。
クローズアップ顔画像でよく見られる視点歪み効果をとらえる。
論文 参考訳(メタデータ) (2026-03-05T08:52:20Z) - JOintGS: Joint Optimization of Cameras, Bodies and 3D Gaussians for In-the-Wild Monocular Reconstruction [18.636227266388218]
JOintGSは、カメラ外在物、人間のポーズ、および3Dガウス表現を協調的に最適化する統合フレームワークである。
NeuManとEMDBデータセットの実験は、JOintGSが優れた再構築品質を達成することを示した。
論文 参考訳(メタデータ) (2026-02-04T08:33:51Z) - ShapeGen4D: Towards High Quality 4D Shape Generation from Videos [85.45517487721257]
ビデオからエンドツーエンドに1つの動的3次元表現を合成する,ネイティブなビデオから4次元の形状生成フレームワークを提案する。
本手法は,フレームごとの最適化を行なわずに,非剛性運動,体積変化,および位相遷移を正確にキャプチャする。
論文 参考訳(メタデータ) (2025-10-07T17:58:11Z) - Enhancing Novel View Synthesis from extremely sparse views with SfM-free 3D Gaussian Splatting Framework [14.927184256861807]
本稿では,SfMフリーな3DGSを用いたカメラのポーズを推定し,非常にスムーズな視点から3Dシーンを再構成する手法を提案する。
提案手法は,PSNRの高度2.75dB改善を極端に軽視条件下で達成し,他の最先端3DGS法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-21T11:25:24Z) - Large-scale visual SLAM for in-the-wild videos [28.58692815339531]
カジュアルビデオから3D再構成を改善するために,ロバストなパイプラインを導入する。
我々は近年の深部視覚計測法を基礎にしているが、いくつかの点で頑健性を高めている。
各種環境におけるオンラインビデオの大規模連続3Dモデルについて紹介する。
論文 参考訳(メタデータ) (2025-04-29T07:37:51Z) - Humans as a Calibration Pattern: Dynamic 3D Scene Reconstruction from Unsynchronized and Uncalibrated Videos [12.19207713016543]
動的3次元神経場再構成に関する最近の研究は、ポーズが知られているマルチビュービデオからの入力を前提としている。
アンバロライズされたセットアップは、ダイナミックなダイナミックなビデオが人間の動きをキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-26T07:04:20Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - Deblur4DGS: 4D Gaussian Splatting from Blurry Monocular Video [55.704264233274294]
ぼやけたモノクロ映像から高品質な4Dモデルを再構成するためのDeblur4DGSを提案する。
我々は露光時間内の連続的動的表現を露光時間推定に変換する。
Deblur4DGSは、新規なビュー合成以外にも、複数の視点からぼやけたビデオを改善するために応用できる。
論文 参考訳(メタデータ) (2024-12-09T12:02:11Z) - Gaussian Scenes: Pose-Free Sparse-View Scene Reconstruction using Depth-Enhanced Diffusion Priors [5.407319151576265]
本研究では2次元画像の粗い集合から360度シーンのポーズなし(カメラパラメータなしで)再構成のための生成的アプローチを提案する。
画像から画像への生成モデルを提案し、3Dシーンの新たな画像レンダリングと深度マップにおいて、欠落した詳細を描き、アーティファクトを除去する。
論文 参考訳(メタデータ) (2024-11-24T19:34:58Z) - Gaussian Splatting on the Move: Blur and Rolling Shutter Compensation for Natural Camera Motion [25.54868552979793]
本稿では,カメラの動きに適応し,手持ち映像データを用いた高品質なシーン再構成を実現する手法を提案する。
合成データと実データの両方を用いて、既存の手法よりもカメラの動きを軽減できる性能を示した。
論文 参考訳(メタデータ) (2024-03-20T06:19:41Z) - SceNeRFlow: Time-Consistent Reconstruction of General Dynamic Scenes [75.9110646062442]
我々はSceNeRFlowを提案し、時間的一貫性のある方法で一般的な非剛体シーンを再構築する。
提案手法は,カメラパラメータを入力として,静止カメラからのマルチビューRGBビデオと背景画像を取得する。
実験により,小規模動作のみを扱う先行作業とは異なり,スタジオスケール動作の再構築が可能であることが示された。
論文 参考訳(メタデータ) (2023-08-16T09:50:35Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Enhanced Stable View Synthesis [86.69338893753886]
本稿では,自由に動くカメラから撮影した画像から,新しいビュー合成を強化するアプローチを提案する。
導入されたアプローチは、正確な幾何学的足場とカメラのポーズの復元が困難な屋外シーンに焦点を当てている。
論文 参考訳(メタデータ) (2023-03-30T01:53:14Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。