論文の概要: WildPose: A Unified Framework for Robust Pose Estimation in the Wild
- arxiv url: http://arxiv.org/abs/2605.12774v1
- Date: Tue, 12 May 2026 21:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.701494
- Title: WildPose: A Unified Framework for Robust Pose Estimation in the Wild
- Title(参考訳): WildPose: 野におけるロバストなポース推定のための統一フレームワーク
- Authors: Jianhao Zheng, Liyuan Zhu, Zihan Zhu, Iro Armeni,
- Abstract要約: 動的環境においてロバストな統一単分子ポーズフレームワークWildPoseを紹介した。
我々の重要な洞察は、現代の3次元視覚における2つの強力なパラダイムを接続することである:フィードフォワードモデルのリッチな知覚的推定と、微分可能バンドル調整(BA)のエンドツーエンド最適化である。
- 参考スコア(独自算出の注目度): 13.59516321308291
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Estimating camera pose in dynamic environments is a critical challenge, as most visual SLAM and SfM methods assume static scenes. While recent dynamic-aware methods exist, they are often not unified: semantic-based approaches are brittle, per-sequence optimization methods fail on short sequences, and other learned models may degrade on static-only scenes. We present WildPose, a unified monocular pose estimation framework that is robust in dynamic environments while maintaining state-of-the-art performance on static and low-ego-motion datasets. Our key insight is to connect two powerful paradigms in modern 3D vision: the rich perceptual frontend of feedforward models and the end-to-end optimization of differentiable bundle adjustment (BA). We achieve this with a 3D-aware update operator built on a frozen, pre-trained MASt3R feature backbone, together with a high-capacity motion mask detector that uses multi-level 3D-aware features from the same backbone. Extensive experiments show WildPose consistently outperforms prior methods across dynamic (Wild-SLAM, Bonn), static (TUM, 7-Scenes), and low-ego-motion (Sintel) benchmarks.
- Abstract(参考訳): 多くの視覚的SLAMとSfMメソッドが静的なシーンを前提としているため、動的な環境でのカメラのポーズの推定は重要な課題である。
セマンティックベースのアプローチは不安定であり、シーケンスごとの最適化手法は短いシーケンスで失敗し、他の学習されたモデルは静的のみのシーンで劣化する可能性がある。
静的および低エゴモーションデータセット上での最先端性能を維持しつつ,動的環境において堅牢な統一単眼ポーズ推定フレームワークであるWildPoseを提案する。
我々の重要な洞察は、現代の3Dビジョンにおける2つの強力なパラダイム、すなわち、フィードフォワードモデルのリッチな知覚的フロントエンドと、微分可能なバンドル調整(BA)のエンドツーエンド最適化を接続することである。
我々は、冷凍、トレーニング済みのMASt3R機能バックボーン上に構築された3D対応更新演算子と、同じバックボーンからマルチレベル3D対応機能を使用する高容量モーションマスク検出器でこれを実現する。
大規模な実験により、WildPoseは動的(Wild-SLAM, Bonn)、静的(TUM, 7-Scenes)、低エゴモーション(Sintel)ベンチマークで先行メソッドを一貫して上回っている。
関連論文リスト
- EVolSplat4D: Efficient Volume-based Gaussian Splatting for 4D Urban Scene Synthesis [43.898895514609286]
EvolSplat4Dは、ボリュームベースとピクセルベースのガウス予測を統合することで、既存のピクセル単位のパラダイムを超えたフィードフォワードフレームワークである。
EvolSplat4Dは静的環境と動的環境の両方を高い精度と一貫性で再構成し、シーンごとの最適化と最先端のフィードフォワードベースラインの両方に優れることを示す。
論文 参考訳(メタデータ) (2026-01-22T13:39:29Z) - DePT3R: Joint Dense Point Tracking and 3D Reconstruction of Dynamic Scenes in a Single Forward Pass [2.0487171253259104]
DePT3Rは、複数の画像から高密度な点追跡と動的シーンの3次元再構成を同時に行う新しいフレームワークである。
DePT3Rを動的シーンを含むいくつかの困難なベンチマークで検証し、高い性能とメモリ効率の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-12-15T09:21:28Z) - Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding [54.859943475818234]
基礎モデルからの2次元先行を統一された4次元ガウススプラッティング表現に統合する新しいフレームワークであるMotion4Dを提案する。
1) 局所的な一貫性を維持するために連続的に動き場と意味体を更新する逐次最適化,2) 長期的コヒーレンスのために全ての属性を共同で洗練するグローバル最適化,である。
提案手法は,ポイントベーストラッキング,ビデオオブジェクトセグメンテーション,新しいビュー合成など,多様なシーン理解タスクにおいて,2次元基礎モデルと既存の3Dベースアプローチの両方に優れる。
論文 参考訳(メタデータ) (2025-12-03T09:32:56Z) - 4D3R: Motion-Aware Neural Reconstruction and Rendering of Dynamic Scenes from Monocular Videos [52.89084603734664]
静的および動的コンポーネントを2段階のアプローチで分離する,ポーズフリーな動的ニューラルネットワークレンダリングフレームワークである4D3Rを提案する。
提案手法は最先端手法よりも最大1.8dBPSNRの改善を実現する。
論文 参考訳(メタデータ) (2025-11-07T13:25:50Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - SWinGS: Sliding Windows for Dynamic 3D Gaussian Splatting [7.553079256251747]
我々は動的シーンを再構築するために3次元ガウススプラッティングを拡張した。
我々は、競争力のある定量的性能を持つ一般的な動的シーンの高品質なレンダリングを作成する。
我々の手法は動的インタラクティブなビューアでリアルタイムで見ることができる。
論文 参考訳(メタデータ) (2023-12-20T03:54:03Z) - EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via
Self-Supervision [85.17951804790515]
EmerNeRFは動的駆動シーンの時空間表現を学習するためのシンプルだが強力なアプローチである。
シーンの幾何学、外観、動き、セマンティクスを自己ブートストラップで同時にキャプチャする。
本手法はセンサシミュレーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-03T17:59:55Z) - DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。
実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。
提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-09-30T18:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。