論文の概要: VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.05851v1
- Date: Fri, 06 Mar 2026 03:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.978657
- Title: VS3R: Robust Full-frame Video Stabilization via Deep 3D Reconstruction
- Title(参考訳): VS3R:Deep 3Dレコンストラクションによるロバストフルフレームビデオ安定化
- Authors: Muhua Zhu, Xinhao Jin, Yu Zhang, Yifei Xue, Tie Ji, Yizhen Lao,
- Abstract要約: フィードフォワード3次元再構成と生成ビデオ拡散を相乗化するためのフレームワークであるVS3Rを提案する。
私たちのパイプラインは、すべてのシナリオの信頼性を確保するために、カメラパラメータ、深さ、マスクを共同で見積もっています。
Dual-Stream Video Diffusion Modelは、隠蔽された領域を復元し、セマンティックアンカーと構造的なガイダンスを相乗してアーティファクトを修正します。
- 参考スコア(独自算出の注目度): 8.43362854806854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video stabilization aims to mitigate camera shake but faces a fundamental trade-off between geometric robustness and full-frame consistency. While 2D methods suffer from aggressive cropping, 3D techniques are often undermined by fragile optimization pipelines that fail under extreme motions. To bridge this gap, we propose VS3R, a framework that synergizes feed-forward 3D reconstruction with generative video diffusion. Our pipeline jointly estimates camera parameters, depth, and masks to ensure all-scenario reliability, and introduces a Hybrid Stabilized Rendering module that fuses semantic and geometric cues for dynamic consistency. Finally, a Dual-Stream Video Diffusion Model restores disoccluded regions and rectifies artifacts by synergizing structural guidance with semantic anchors. Collectively, VS3R achieves high-fidelity, full-frame stabilization across diverse camera models and significantly outperforms state-of-the-art methods in robustness and visual quality.
- Abstract(参考訳): ビデオの安定化は、カメラの揺れを軽減することを目的としているが、幾何学的堅牢性とフルフレームの一貫性の基本的なトレードオフに直面している。
2D法は攻撃的な収穫に苦しむが、3D法は極端運動で失敗する脆弱な最適化パイプラインによって損なわれることが多い。
このギャップを埋めるために、生成ビデオ拡散とフィードフォワード3D再構成を相乗化するためのフレームワークであるVS3Rを提案する。
我々のパイプラインは、カメラパラメータ、深さ、マスクを共同で推定し、すべてのシナリオの信頼性を確保し、動的一貫性のために意味的および幾何学的手がかりを融合するハイブリッド安定化レンダリングモジュールを導入します。
最後に、Dual-Stream Video Diffusion Modelは、隠蔽された領域を復元し、セマンティックアンカーと構造的なガイダンスを相乗してアーティファクトを修正します。
まとめると、VS3Rは様々なカメラモデルにまたがる高忠実でフルフレームの安定化を実現し、堅牢性と視覚的品質において最先端の手法を大幅に上回っている。
関連論文リスト
- Towards Geometry-Aware and Motion-Guided Video Human Mesh Recovery [60.51998732898099]
HMRMambaは3Dヒューマンメッシュリカバリのための新しいパラダイムである。
構造状態空間モデル(Structured State Space Models)をその効率性と長距離モデリングに利用した先駆者である。
まず、新しいデュアルスキャンのMambaアーキテクチャを特徴とするGeometry-Aware Lifting Moduleについて述べる。
論文 参考訳(メタデータ) (2026-01-29T08:05:02Z) - SPARK: Scalable Real-Time Point Cloud Aggregation with Multi-View Self-Calibration [1.3537117504260623]
SPARKは、リアルタイムマルチカメラポイントクラウド再構築フレームワークである。
カメラの数と線形にスケーリングしながら、ダイナミックなシーンで安定した点雲を生成する。
論文 参考訳(メタデータ) (2026-01-13T10:32:22Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - FED-NeRF: Achieve High 3D Consistency and Temporal Coherence for Face
Video Editing on Dynamic NeRF [77.94545888842883]
本稿では,動的顔GAN-NeRF構造上に構築された新しい顔ビデオ編集アーキテクチャを提案する。
潜在コードの編集により、マルチビューステレオ再構成によって検証されるように、顔上でのマルチビュー一貫した編集を確実にすることができる。
本研究では,連続フレームにおける表情のスムーズな変化を保存し,時間的コヒーレンスを維持する安定化器を提案する。
論文 参考訳(メタデータ) (2024-01-05T03:23:38Z) - Neural Re-rendering for Full-frame Video Stabilization [144.9918806873405]
まず,高密度ワープ場を推定し,フルフレーム映像安定化のためのアルゴリズムを提案する。
フルフレーム安定化フレームは、隣接するフレームから歪んだコンテンツを融合することで合成することができる。
論文 参考訳(メタデータ) (2021-02-11T18:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。