論文の概要: SirenPose: Dynamic Scene Reconstruction via Geometric Supervision
- arxiv url: http://arxiv.org/abs/2512.20531v1
- Date: Tue, 23 Dec 2025 17:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.945795
- Title: SirenPose: Dynamic Scene Reconstruction via Geometric Supervision
- Title(参考訳): SirenPose:幾何学的スーパービジョンによる動的シーン再構築
- Authors: Kaitong Cai, Jensen Zhang, Jing Yang, Keze Wang,
- Abstract要約: 本稿では,鍵点に基づく幾何監督と特性正弦波表現ネットワークの周期的活性化を統合した幾何認識損失定式化であるSirenPoseを紹介する。
ポーズ推定において、SirenPoseは、絶対軌道誤差の低いMonst3Rと、変換および回転相対ポーズ誤差の低減で性能を向上する。
- 参考スコア(独自算出の注目度): 12.966077380225856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SirenPose, a geometry-aware loss formulation that integrates the periodic activation properties of sinusoidal representation networks with keypoint-based geometric supervision, enabling accurate and temporally consistent reconstruction of dynamic 3D scenes from monocular videos. Existing approaches often struggle with motion fidelity and spatiotemporal coherence in challenging settings involving fast motion, multi-object interaction, occlusion, and rapid scene changes. SirenPose incorporates physics inspired constraints to enforce coherent keypoint predictions across both spatial and temporal dimensions, while leveraging high frequency signal modeling to capture fine grained geometric details. We further expand the UniKPT dataset to 600,000 annotated instances and integrate graph neural networks to model keypoint relationships and structural correlations. Extensive experiments on benchmarks including Sintel, Bonn, and DAVIS demonstrate that SirenPose consistently outperforms state-of-the-art methods. On DAVIS, SirenPose achieves a 17.8 percent reduction in FVD, a 28.7 percent reduction in FID, and a 6.0 percent improvement in LPIPS compared to MoSCA. It also improves temporal consistency, geometric accuracy, user score, and motion smoothness. In pose estimation, SirenPose outperforms Monst3R with lower absolute trajectory error as well as reduced translational and rotational relative pose error, highlighting its effectiveness in handling rapid motion, complex dynamics, and physically plausible reconstruction.
- Abstract(参考訳): 正弦波表現ネットワークの周期的アクティベーション特性をキーポイントに基づく幾何監視と統合し,モノクロ映像から動的3Dシーンを正確に時間的に一貫した再構成を可能にする幾何認識損失定式化であるSierenPoseを紹介した。
既存のアプローチは、高速な動き、多目的相互作用、閉塞、急激なシーン変化を含む挑戦的な設定において、動きの忠実さと時空間的コヒーレンスに苦しむことが多い。
SirenPoseは物理にインスパイアされた制約を取り入れ、空間次元と時間次元の両方にわたってコヒーレントなキーポイント予測を強制すると同時に、高周波信号モデリングを活用してきめ細かい幾何学的詳細を捉える。
さらに、UniKPTデータセットを60,000のアノテーション付きインスタンスに拡張し、キーポイント関係と構造相関をモデル化するためにグラフニューラルネットワークを統合する。
Sintel、Bonn、DAVISといったベンチマークに関する大規模な実験は、SirenPoseが常に最先端の手法より優れていることを示した。
DAVISでは、SirenPoseはFVDの17.8%削減、FIDの28.7%削減、LPIPSの6.0改善を実現している。
また、時間的一貫性、幾何学的精度、ユーザースコア、動きの滑らかさも改善する。
ポーズ推定において、SirenPoseはMonst3Rよりも低い絶対軌道誤差、および翻訳的および回転的相対ポーズ誤差を低減し、高速な動き、複雑なダイナミクス、物理的に妥当な再構成を扱う上での有効性を強調している。
関連論文リスト
- KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals [11.14439818111551]
フルボディモーショントラッキングは、物理と仮想の相互作用をブリッジするAR/VRアプリケーションにおいて重要な役割を果たす。
ヘッドマウントディスプレイから得られるスパース信号に基づいて、現実的で多様なフルボディのポーズを再構築することは困難である。
ポーズ再構成のための既存の方法は、しばしば高い計算コストを発生させるか、別々に空間モデリングと時間的依存に依存している。
局所的および大域的ポーズ知覚を統合しつつ、幾何学的依存関係を効果的に抽出する、新しいキネマティクス誘導状態空間モデルであるKineSTを提案する。
論文 参考訳(メタデータ) (2025-12-18T17:25:47Z) - HAD: Hierarchical Asymmetric Distillation to Bridge Spatio-Temporal Gaps in Event-Based Object Tracking [80.07224739976911]
イベントカメラは例外的な時間分解能と範囲(モード)を提供する
RGBカメラは高解像度でリッチテクスチャを捉えるのに優れていますが、イベントカメラは例外的な時間分解能とレンジ(モダル)を提供します。
論文 参考訳(メタデータ) (2025-10-22T13:15:13Z) - SplitGaussian: Reconstructing Dynamic Scenes via Visual Geometry Decomposition [14.381223353489062]
textbfSplitGaussianは、シーン表現を静的および動的コンポーネントに明示的に分解する新しいフレームワークである。
SplitGaussianは、レンダリング品質、幾何学的安定性、動き分離において、最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-06T09:00:13Z) - STDR: Spatio-Temporal Decoupling for Real-Time Dynamic Scene Rendering [15.873329633980015]
既存の3DGSに基づく動的再構成法は、しばしばtextbfSTDR(リアルタイムレンダリングのための空間結合デテンポラル)に悩まされる
実時間レンダリングのためのテキストbfSTDR (Spatio-coupling DeTemporal for Real-time rendering) を提案する。
論文 参考訳(メタデータ) (2025-05-28T14:26:41Z) - EMoTive: Event-guided Trajectory Modeling for 3D Motion Estimation [59.33052312107478]
イベントカメラは、シーン変化に対する連続的適応ピクセルレベル応答による3次元モーション推定の可能性を提供する。
本稿では,イベント誘導パラメトリック曲線を用いた一様軌道をモデル化するイベントベースフレームワークであるEMoveについて述べる。
動作表現には,事象誘導下での空間的特徴と時間的特徴を融合する密度認識適応機構を導入する。
最終3次元運動推定は、パラメトリック軌道、流れ、深度運動場の多時間サンプリングによって達成される。
論文 参考訳(メタデータ) (2025-03-14T13:15:54Z) - Leveraging Consistent Spatio-Temporal Correspondence for Robust Visual Odometry [7.517597541959445]
S-Temporal Visual Odometry (STVO) は,マルチフレームフローマッチングの精度と一貫性を高めるための,新しいディープネットワークアーキテクチャである。
我々のSTVOはETH3Dベンチマークの最先端性能とKITTI Odometryベンチマークの38.9%を実現している。
論文 参考訳(メタデータ) (2024-12-22T08:47:13Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。