論文の概要: Semantic Object-level Modeling for Robust Visual Camera Relocalization
- arxiv url: http://arxiv.org/abs/2402.06951v1
- Date: Sat, 10 Feb 2024 13:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 18:33:50.255262
- Title: Semantic Object-level Modeling for Robust Visual Camera Relocalization
- Title(参考訳): ロバストな視覚カメラ再局在のためのセマンティックオブジェクトレベルモデリング
- Authors: Yifan Zhu, Lingjuan Miao, Haitao Wu, Zhiqiang Zhou, Weiyi Chen,
Longwen Wu
- Abstract要約: 本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
これらのモジュールはすべて、視覚的SLAMシステムに完全に介在している。
- 参考スコア(独自算出の注目度): 14.998133272060695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual relocalization is crucial for autonomous visual localization and
navigation of mobile robotics. Due to the improvement of CNN-based object
detection algorithm, the robustness of visual relocalization is greatly
enhanced especially in viewpoints where classical methods fail. However,
ellipsoids (quadrics) generated by axis-aligned object detection may limit the
accuracy of the object-level representation and degenerate the performance of
visual relocalization system. In this paper, we propose a novel method of
automatic object-level voxel modeling for accurate ellipsoidal representations
of objects. As for visual relocalization, we design a better pose optimization
strategy for camera pose recovery, to fully utilize the projection
characteristics of 2D fitted ellipses and the 3D accurate ellipsoids. All of
these modules are entirely intergrated into visual SLAM system. Experimental
results show that our semantic object-level mapping and object-based visual
relocalization methods significantly enhance the performance of visual
relocalization in terms of robustness to new viewpoints.
- Abstract(参考訳): 視覚の再ローカライズは、移動ロボットの自律的な視覚ローカライズとナビゲーションに不可欠である。
CNNに基づくオブジェクト検出アルゴリズムの改善により、特に古典的手法が失敗する視点において、視覚的再局在の堅牢性が大幅に向上する。
しかし、軸方向の物体検出によって生成される楕円体(クワッドリック)は、オブジェクトレベルの表現の精度を制限し、視覚的再局在システムの性能を低下させる可能性がある。
本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。
視覚的再局在化については,2次元装着楕円体と3次元正確な楕円体の投影特性をフル活用するために,カメラポーズ回復のためのより良いポーズ最適化戦略を設計する。
これらのモジュールはすべて、ビジュアルSLAMシステムに完全に介在している。
実験結果から,我々の意味的オブジェクトレベルマッピングとオブジェクトベースの視覚的再局在化手法は,新しい視点へのロバスト性の観点から視覚的再局在化の性能を著しく向上させることが示された。
関連論文リスト
- Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations [55.74675012171316]
RELOCATEは、長いビデオにおけるビジュアルクエリローカライゼーションの難しいタスクを実行するために設計された、トレーニング不要のベースラインである。
タスク固有のトレーニングを不要にするために、RELOCATEは事前訓練された視覚モデルから派生した領域ベースの表現を利用する。
論文 参考訳(メタデータ) (2024-12-02T18:59:53Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - VOOM: Robust Visual Object Odometry and Mapping using Hierarchical
Landmarks [19.789761641342043]
本稿では,ビジュアルオブジェクトのオドメトリとマッピングフレームワーク VOOM を提案する。
粗い方法で階層的なランドマークとして、高レベルのオブジェクトと低レベルのポイントを使用します。
VOOMはオブジェクト指向SLAMと特徴点SLAMシステムの両方をローカライゼーションで上回る。
論文 参考訳(メタデータ) (2024-02-21T08:22:46Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM [2.016317500787292]
オブジェクトの主な利点は、その高レベルなセマンティクスと識別能力にあることを示す。
実験により,古典的手法が失敗する視点から,カメラを再局在化できることが判明した。
私たちのコードとテストデータはgitlab.inria.fr/tangram/oa-slamでリリースされます。
論文 参考訳(メタデータ) (2022-09-17T14:20:08Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z) - OrcVIO: Object residual constrained Visual-Inertial Odometry [18.3130718336919]
この研究は、構造化対象モデルに対する追跡と最適化と密結合した視覚慣性オドメトリーのためのOrcVIOを提示する。
OrcVIOの正確な軌道推定および大規模オブジェクトレベルのマッピング能力は実データを用いて評価する。
論文 参考訳(メタデータ) (2020-07-29T21:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。