論文の概要: Multi-object Monocular SLAM for Dynamic Environments
- arxiv url: http://arxiv.org/abs/2002.03528v2
- Date: Mon, 11 May 2020 11:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:29:01.626897
- Title: Multi-object Monocular SLAM for Dynamic Environments
- Title(参考訳): 動的環境のための多目的単眼スラム
- Authors: Gokul B. Nair, Swapnil Daga, Rahul Sajnani, Anirudha Ramesh, Junaid
Ahmed Ansari, Krishna Murthy Jatavallabhula, K. Madhava Krishna
- Abstract要約: マルチボディ(multibody)という言葉は、カメラの動きと、シーン内の他のダイナミックな参加者の動きを追跡することを意味する。
既存のアプローチは制限された問題の変種を解くが、解は相対的なスケールの曖昧さに悩まされる。
本稿では,相対的および絶対的スケール係数の曖昧さを解決するために,多ポーズグラフ最適化の定式化を提案する。
- 参考スコア(独自算出の注目度): 12.537311048732017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of multibody SLAM from a monocular
camera. The term multibody, implies that we track the motion of the camera, as
well as that of other dynamic participants in the scene. The quintessential
challenge in dynamic scenes is unobservability: it is not possible to
unambiguously triangulate a moving object from a moving monocular camera.
Existing approaches solve restricted variants of the problem, but the solutions
suffer relative scale ambiguity (i.e., a family of infinitely many solutions
exist for each pair of motions in the scene). We solve this rather intractable
problem by leveraging single-view metrology, advances in deep learning, and
category-level shape estimation. We propose a multi pose-graph optimization
formulation, to resolve the relative and absolute scale factor ambiguities
involved. This optimization helps us reduce the average error in trajectories
of multiple bodies over real-world datasets, such as KITTI. To the best of our
knowledge, our method is the first practical monocular multi-body SLAM system
to perform dynamic multi-object and ego localization in a unified framework in
metric scale.
- Abstract(参考訳): 本稿では,モノクロカメラによる多体SLAMの問題に取り組む。
マルチボディという言葉は、カメラの動きと、シーン内の他のダイナミック参加者の動きを追跡することを意味する。
動く単眼カメラから動く物体を曖昧に三角測量することは不可能である。
既存のアプローチは問題の制限された変種を解くが、解は相対スケールの曖昧さに悩まされる(つまり、シーンの各運動に対して無限に多くの解が存在する)。
この難解な問題を、シングルビューのメトロロジー、ディープラーニングの進歩、およびカテゴリレベルの形状推定を利用して解決する。
本稿では,相対的および絶対的スケール係数の曖昧さを解消する多ポーズグラフ最適化法を提案する。
この最適化は、KITTIのような実世界のデータセット上での複数体の軌道における平均誤差を低減するのに役立つ。
我々の知識を最大限に活用するため,本手法はメートル法スケールの統一フレームワークにおいて動的マルチオブジェクトおよびエゴローカライゼーションを行うための,初の実用的モノクロマルチボディslamシステムである。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation [18.261678529996104]
本稿では,低レベル認識モジュールの出力をキネマティックおよびシーンモデリングの先駆体と柔軟に統合するフレームワークを提案する。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-08-08T10:55:55Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文 参考訳(メタデータ) (2023-04-18T13:55:24Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Animation from Blur: Multi-modal Blur Decomposition with Motion Guidance [83.25826307000717]
単一の動き赤画像から詳細な動きを復元する際の課題について検討する。
既存の解法では、各領域の運動のあいまいさを考慮せずに単一の画像列を推定する。
本稿では、このような動きのあいまいさを明示的に説明し、複数の可算解をシャープな詳細で生成することができる。
論文 参考訳(メタデータ) (2022-07-20T18:05:53Z) - Disentangling Object Motion and Occlusion for Unsupervised Multi-frame
Monocular Depth [37.021579239596164]
既存の動的対象に焦点をあてた手法は、トレーニング損失レベルのミスマッチ問題を部分的に解決しただけである。
本稿では,これらの問題を予測レベルと監督損失レベルの両方で解くために,新しい多フレーム単眼深度予測法を提案する。
我々の手法はDynamicDepthと呼ばれ、自己教師付きサイクル一貫性学習スキームによって訓練された新しいフレームワークである。
論文 参考訳(メタデータ) (2022-03-29T01:36:11Z) - DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate
Multi-Camera Multiple Object Tracking [25.98400206361454]
Multi-Camera Multiple Object Tracking (MC-MOT) は、複数の実世界のアプリケーションに適用可能になったため、重要なコンピュータビジョンの問題である。
本研究では,データアソシエーションタスクを解決するために,リンク予測を用いた動的グラフモデルを提案する。
実験結果から,既存のMC-MOTアルゴリズムよりも,いくつかの実用的なデータセットにおいて大きなマージンを達成できた。
論文 参考訳(メタデータ) (2021-06-12T20:22:30Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。