論文の概要: DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization
- arxiv url: http://arxiv.org/abs/2010.00573v2
- Date: Wed, 25 Nov 2020 15:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:18:38.870687
- Title: DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization
- Title(参考訳): DASGIL: 意味的および幾何学的画像に基づく局所化のためのドメイン適応
- Authors: Hanjiang Hu, Zhijian Qiao, Ming Cheng, Zhe Liu and Hesheng Wang
- Abstract要約: 環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 27.294822556484345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-Term visual localization under changing environments is a challenging
problem in autonomous driving and mobile robotics due to season, illumination
variance, etc. Image retrieval for localization is an efficient and effective
solution to the problem. In this paper, we propose a novel multi-task
architecture to fuse the geometric and semantic information into the
multi-scale latent embedding representation for visual place recognition. To
use the high-quality ground truths without any human effort, the effective
multi-scale feature discriminator is proposed for adversarial training to
achieve the domain adaptation from synthetic virtual KITTI dataset to
real-world KITTI dataset. The proposed approach is validated on the Extended
CMU-Seasons dataset and Oxford RobotCar dataset through a series of crucial
comparison experiments, where our performance outperforms state-of-the-art
baselines for retrieval-based localization and large-scale place recognition
under the challenging environment.
- Abstract(参考訳): 環境の変化による視覚的長期化は、季節や照明のばらつきなどによる自律運転や移動ロボットの課題である。
ローカライゼーションのための画像検索は、この問題に対する効率的かつ効果的な解決策である。
本稿では,視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する,新しいマルチタスクアーキテクチャを提案する。
人間の努力なしに高品質な地上の真理を利用するために, 仮想KITTIデータセットから実世界のKITTIデータセットへのドメイン適応を実現するために, 対戦訓練に有効なマルチスケール特徴判別器を提案する。
提案手法は拡張されたcmu-seasonsデータセットとoxford robotcarデータセット上で検証され,課題環境下での検索ベースラインと大規模位置認識において,その性能が最先端のベースラインを上回る重要な比較実験を行った。
関連論文リスト
- Swarm Intelligence in Geo-Localization: A Multi-Agent Large Vision-Language Model Collaborative Framework [51.26566634946208]
smileGeoは、新しい視覚的ジオローカライゼーションフレームワークである。
エージェント間のコミュニケーションによって、SmithGeoはこれらのエージェントの固有の知識と、検索された情報を統合する。
その結果,本手法は現在の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-21T03:31:30Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - MRFP: Learning Generalizable Semantic Segmentation from Sim-2-Real with Multi-Resolution Feature Perturbation [2.0293118701268154]
本稿では,ドメイン固有の細粒度特徴と粗い特徴の摂動スタイルをランダム化するための,MRFP(Multi Resolution Feature Perturbation)手法を提案する。
MRFPは最先端のディープニューラルネットワークで、シミュレーションから実際のセマンティックセグメンテーションのための堅牢なドメイン不変機能を学ぶのに役立つ。
論文 参考訳(メタデータ) (2023-11-30T08:02:49Z) - One-Shot Domain Adaptive and Generalizable Semantic Segmentation with
Class-Aware Cross-Domain Transformers [96.51828911883456]
セマンティックセグメンテーションのための教師なしのsim-to-realドメイン適応(UDA)は、シミュレーションデータに基づいて訓練されたモデルの実世界のテスト性能を改善することを目的としている。
従来のUDAは、適応のためのトレーニング中に利用可能なラベルのない実世界のサンプルが豊富にあると仮定することが多い。
実世界のデータサンプルが1つしか利用できない,一発の教師なしシム・トゥ・リアル・ドメイン適応(OSUDA)と一般化問題について検討する。
論文 参考訳(メタデータ) (2022-12-14T15:54:15Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - CrossLoc: Scalable Aerial Localization Assisted by Multimodal Synthetic
Data [2.554905387213586]
本稿では,合成データを用いて実世界のカメラポーズを推定する視覚的位置決めシステムを提案する。
データ不足を緩和するために,汎用な合成データ生成ツールTOPO-DataGenを導入する。
また、ポーズ推定のためのクロスモーダル視覚表現学習手法であるCrossLocを導入する。
論文 参考訳(メタデータ) (2021-12-16T18:05:48Z) - Exploring Data Aggregation and Transformations to Generalize across
Visual Domains [0.0]
この論文は、ドメイン一般化(DG)、ドメイン適応(DA)およびそれらのバリエーションの研究に寄与する。
本稿では,機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。
提案手法が確立したDGおよびDAベンチマークにおいて,最先端の競争的アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-20T14:58:14Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。