論文の概要: Leveraging Spatial Attention and Edge Context for Optimized Feature Selection in Visual Localization
- arxiv url: http://arxiv.org/abs/2410.12240v1
- Date: Wed, 16 Oct 2024 05:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:42:19.323877
- Title: Leveraging Spatial Attention and Edge Context for Optimized Feature Selection in Visual Localization
- Title(参考訳): 視覚的位置選択における空間的注意とエッジコンテキストの活用
- Authors: Nanda Febri Istighfarin, HyungGi Jo,
- Abstract要約: 画像の情報領域を選択的にターゲットするアテンションネットワークを導入する。
このネットワークを用いて、特徴選択プロセスを改善し、エッジ検出と組み合わせることで、最高の特徴を識別する。
提案手法を屋外ベンチマークデータセットで検証し,従来の手法と比較して優れた結果を示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Visual localization determines an agent's precise position and orientation within an environment using visual data. It has become a critical task in the field of robotics, particularly in applications such as autonomous navigation. This is due to the ability to determine an agent's pose using cost-effective sensors such as RGB cameras. Recent methods in visual localization employ scene coordinate regression to determine the agent's pose. However, these methods face challenges as they attempt to regress 2D-3D correspondences across the entire image region, despite not all regions providing useful information. To address this issue, we introduce an attention network that selectively targets informative regions of the image. Using this network, we identify the highest-scoring features to improve the feature selection process and combine the result with edge detection. This integration ensures that the features chosen for the training buffer are located within robust regions, thereby improving 2D-3D correspondence and overall localization performance. Our approach was tested on the outdoor benchmark dataset, demonstrating superior results compared to previous methods.
- Abstract(参考訳): 視覚的ローカライゼーションは、視覚データを使用して環境内のエージェントの正確な位置と向きを決定する。
ロボット工学、特に自律ナビゲーションなどの応用において重要なタスクとなっている。
これは、RGBカメラのような費用対効果の高いセンサーを使ってエージェントのポーズを決定する能力に起因している。
近年の視覚的ローカライゼーションでは、エージェントのポーズを決定するためにシーン座標の回帰が採用されている。
しかし、これらの手法は、すべての領域が有用な情報を提供していないにもかかわらず、画像領域全体にわたって2D-3D対応を後退させようとする中で、課題に直面している。
この問題に対処するために、画像の情報領域を選択的にターゲットするアテンションネットワークを導入する。
このネットワークを用いて、特徴選択プロセスを改善し、エッジ検出と組み合わせることで、最高の特徴を識別する。
この統合により、トレーニングバッファに選択された機能がロバストな領域内にあることが保証され、2D-3D対応性と全体的なローカライゼーション性能が向上する。
提案手法を屋外ベンチマークデータセットで検証し,従来の手法と比較して優れた結果を示した。
関連論文リスト
- TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training [21.56675189346088]
本稿では変換不変ローカル(TraIL)機能と関連するTraIL-Detアーキテクチャを紹介する。
TraILの特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応する。
彼らはLiDARの固有の等方性放射を利用して局所的な表現を強化する。
提案手法は,KITTI上のmAPを用いて,現代自己監督型3次元物体検出手法より優れている。
論文 参考訳(メタデータ) (2024-08-25T17:59:17Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Optimizing Fiducial Marker Placement for Improved Visual Localization [24.614588477086503]
本稿では,シーン内のマーカーの自動配置の問題について考察する。
我々は、視覚的位置決めの精度を向上させるために、シーン内の最適化マーカー位置を計算する。
我々は,カメラのローカライザビリティ・フレームワークをベースとした,グレディなアルゴリズムである最適化マーカー配置(OMP)を提案する。
論文 参考訳(メタデータ) (2022-11-02T23:18:14Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented
Object Detection in Remote Sensing Images [0.9462808515258465]
本稿では,物体検出における識別的特徴の役割について論じる。
次に,検出精度を向上させるために,cfc-net (critical feature capture network) を提案する。
本手法は多くの最先端手法と比較して優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2021-01-18T02:31:09Z) - Active Visual Localization in Partially Calibrated Environments [35.48595012305253]
人間は、目立った視覚的な手がかりやランドマークに追われて地図を使わずに、自分自身をしっかりとローカライズすることができる。
この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。
このような能力はロボットアプリケーションにおいて重要であるが、エージェントが部分的に調整された環境に晒される場合、非常に困難である。
合成データと実データの両方で構成された屋内シーンデータセットACR-6を提案し、アクティブビジュアルローカリゼーションのための困難なシナリオをシミュレートします。
論文 参考訳(メタデータ) (2020-12-08T08:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。