論文の概要: Geometry-Constrained Monocular Scale Estimation Using Semantic Segmentation for Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2503.04235v1
- Date: Thu, 06 Mar 2025 09:15:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:31.738713
- Title: Geometry-Constrained Monocular Scale Estimation Using Semantic Segmentation for Dynamic Scenes
- Title(参考訳): 動的シーンのセマンティックセグメンテーションを用いた幾何学制約単眼スケール推定
- Authors: Hui Zhang, Zhiyang Wu, Qianqian Shangguan, Kang An,
- Abstract要約: 本研究では,エゴモーション推定とグラウンドポイントの選択のための革新的な戦略を提案する。
本手法では,不安定な特徴を除去するためにダイナミック・オブジェクトマスクを組み込んでおり,立体三角測量に地上面マスクを用いる。
このアプローチとORB-SLAM3のモ眼バージョンの統合は,道路モデルの正確なエスティメーションを決定づける。
- 参考スコア(独自算出の注目度): 3.635236692041662
- License:
- Abstract: Monocular visual localization plays a pivotal role in advanced driver assistance systems and autonomous driving by estimating a vehicle's ego-motion from a single pinhole camera. Nevertheless, conventional monocular visual odometry encoun-ters challenges in scale estimation due to the absence of depth information during projection. Previous methodologies, whether rooted in physical constraints or deep learning paradigms, con-tend with issues related to computational complexity and the management of dynamic objects. This study extends our prior research, presenting innovative strategies for ego-motion estima-tion and the selection of ground points. Striving for a nuanced equilibrium between computational efficiency and precision, we propose a hybrid method that leverages the SegNeXt model for real-time applications, encompassing both ego-motion estimation and ground point selection. Our methodology incorporates dy-namic object masks to eliminate unstable features and employs ground plane masks for meticulous triangulation. Furthermore, we exploit Geometry-constraint to delineate road regions for scale recovery. The integration of this approach with the mo-nocular version of ORB-SLAM3 culminates in the accurate esti-mation of a road model, a pivotal component in our scale recov-ery process. Rigorous experiments, conducted on the KITTI da-taset, systematically compare our method with existing monocu-lar visual odometry algorithms and contemporary scale recovery methodologies. The results undeniably confirm the superior ef-fectiveness of our approach, surpassing state-of-the-art visual odometry algorithms. Our source code is available at https://git hub.com/bFr0zNq/MVOSegScale.
- Abstract(参考訳): 単一のピンホールカメラから車両のエゴモーションを推定することにより、高度な運転支援システムと自律運転において、単眼の視覚的位置決めが重要な役割を担っている。
それでも、投射時の深度情報の欠如によるスケール推定における従来の単眼視覚計測の課題は大きい。
物理制約やディープラーニングのパラダイムに根ざした従来の方法論は、計算複雑性や動的オブジェクトの管理に関わる問題に焦点を合わせている。
本研究は,エゴモーション・エスティマションの革新的な戦略と接地点の選択について,我々の先行研究を拡張した。
計算効率と精度の微妙な平衡を求めるために,実時間アプリケーションにSegNeXtモデルを利用するハイブリッド手法を提案する。
本手法では,不安定な特徴を除去するためにダイナミック・オブジェクトマスクを組み込んでおり,立体三角測量に地上面マスクを用いる。
さらに, 地形制約を利用して道路地域をデライン化し, スケールリカバリを行う。
このアプローチとORB-SLAM3のモ眼バージョンを統合することで,道路モデルの正確なエスティマレーションが達成される。
KITTI da-tasetで行った厳密な実験で,本手法を既存のモノクラービジュアルオドメトリーアルゴリズムと現代のスケールリカバリ手法と体系的に比較した。
その結果,最先端のビジュアルオドメトリーアルゴリズムを超越して,我々のアプローチの優れたエフェクト効果を確認した。
ソースコードはhttps://git hub.com/bFr0zNq/MVOSegScaleで公開されています。
関連論文リスト
- TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定から距離深度を求めるための実用的スケール回復手法であるTanDepthを提示する。
提案手法は,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスフィルタシミュレーションへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - Self-Supervised Geometry-Guided Initialization for Robust Monocular Visual Odometry [9.79428015716139]
本稿では,屋外ベンチマークにおける主要な障害事例を分析し,学習ベースSLAMモデル(DROID-SLAM)の欠点を明らかにする。
本研究では, 凍結した大規模単分子深度推定を利用して, 密集束調整過程を初期化する自己教師付き事前計算手法を提案する。
その単純さにもかかわらず,提案手法は, DDADベンチマークと同様に, KITTIオドメトリーの大幅な改善を示す。
論文 参考訳(メタデータ) (2024-06-03T01:59:29Z) - A Survey on Deep Learning-Based Monocular Spacecraft Pose Estimation:
Current State, Limitations and Prospects [7.08026800833095]
非協力宇宙船の姿勢を推定することは、軌道上の視覚ベースのシステムを実現するための重要なコンピュータビジョン問題である。
コンピュータビジョンの一般的な傾向に続き、この問題を解決するためにディープラーニング(DL)手法を活用する研究がますます増えている。
有望な研究段階の結果にもかかわらず、実際のミッションでこのような方法が使われるのを防ぐ大きな課題が今も残っている。
論文 参考訳(メタデータ) (2023-05-12T09:52:53Z) - Transformer-Based Model for Monocular Visual Odometry: A Video Understanding Approach [0.0]
カメラのポーズを1台のカメラから撮影した画像から推定することは、モバイルロボットの伝統的なタスクである。
深層学習法は、適切なトレーニングと大量のデータを用いて、一般的なものであることが示されている。
本稿では、時間的自己認識機構に基づくTSformer-VOモデルについて、クリップから特徴を抽出し、その動作をエンドツーエンドに推定する。
論文 参考訳(メタデータ) (2023-05-10T13:11:23Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Object-centric and memory-guided normality reconstruction for video
anomaly detection [56.64792194894702]
本稿では,ビデオ監視における異常検出問題に対処する。
異常事象の固有な規則性と不均一性のため、問題は正規性モデリング戦略と見なされる。
我々のモデルは、トレーニング中に異常なサンプルを見ることなく、オブジェクト中心の正規パターンを学習する。
論文 参考訳(メタデータ) (2022-03-07T19:28:39Z) - Robust Visual Odometry Using Position-Aware Flow and Geometric Bundle
Adjustment [16.04240592057438]
まず,位置認識機構上に構築された新しい光フローネットワーク(PANet)を提案する。
そこで本研究では,エゴモーション学習のための典型的なネットワークを使わずに,深度,光学的流れ,エゴモーションを共同で推定するシステムを提案する。
実験により,提案システムは深度,流れ,VO推定の点で,他の最先端手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-22T12:05:27Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。