論文の概要: Hierarchical place recognition with omnidirectional images and curriculum learning-based loss functions
- arxiv url: http://arxiv.org/abs/2404.14117v3
- Date: Wed, 01 Oct 2025 22:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:19.389807
- Title: Hierarchical place recognition with omnidirectional images and curriculum learning-based loss functions
- Title(参考訳): 全方位画像とカリキュラム学習に基づく損失関数を用いた階層的位置認識
- Authors: Marcos Alfaro, Juan José Cabrera, María Flores, Óscar Reinoso, Luis Payá,
- Abstract要約: 本稿では,移動ロボットの安全なナビゲーションに不可欠な視覚的位置認識(VPR)について述べる。
提案手法は,カリキュラム学習戦略を統合した三重項損失関数を微調整したパノラマ画像とディープラーニングモデルを用いる。
提案手法は,これらの状況すべてにおいて,高い認識精度を達成し,実世界のロボット応用のための信頼性の高いソリューションとしての可能性を示す。
- 参考スコア(独自算出の注目度): 1.5938324336156293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses Visual Place Recognition (VPR), which is essential for the safe navigation of mobile robots. The solution we propose employs panoramic images and deep learning models, which are fine-tuned with triplet loss functions that integrate curriculum learning strategies. By progressively presenting more challenging examples during training, these loss functions enable the model to learn more discriminative and robust feature representations, overcoming the limitations of conventional contrastive loss functions. After training, VPR is tackled in two steps: coarse (room retrieval) and fine (position estimation). The results demonstrate that the curriculum-based triplet losses consistently outperform standard contrastive loss functions, particularly under challenging perceptual conditions. To thoroughly assess the robustness and generalization capabilities of the proposed method, it is evaluated in a variety of indoor and outdoor environments. The approach is tested against common challenges in real operation conditions, including severe illumination changes, the presence of dynamic visual effects such as noise and occlusions, and scenarios with limited training data. The results show that the proposed framework performs competitively in all these situations, achieving high recognition accuracy and demonstrating its potential as a reliable solution for real-world robotic applications. The code used in the experiments is available at https://github.com/MarcosAlfaro/TripletNetworksIndoorLocalization.git.
- Abstract(参考訳): 本稿では,移動ロボットの安全なナビゲーションに不可欠な視覚的位置認識(VPR)について述べる。
提案手法は,カリキュラム学習戦略を統合した三重項損失関数を微調整したパノラマ画像とディープラーニングモデルを用いる。
これらの損失関数は、訓練中により困難な例を徐々に提示することにより、従来の対照的な損失関数の制限を克服し、より差別的で堅牢な特徴表現を学習することができる。
トレーニング後、VPRは粗い(部屋の検索)と細かい(位置推定)の2つのステップで取り組まれる。
その結果、カリキュラムベースの三重項損失は、特に難解な知覚条件下で、標準コントラスト損失関数より一貫して優れていた。
提案手法のロバスト性および一般化能力を徹底的に評価するため,様々な屋内・屋外環境において評価を行った。
アプローチは、深刻な照明変更、ノイズや閉塞などの動的視覚効果の存在、限られたトレーニングデータを伴うシナリオなど、実際の運用条件における一般的な課題に対してテストされる。
提案手法は,これらの状況すべてにおいて,高い認識精度を達成し,実世界のロボット応用のための信頼性の高いソリューションとしての可能性を示す。
実験で使用されたコードはhttps://github.com/MarcosAlfaro/TripletNetworksIndoorLocalization.gitで公開されている。
関連論文リスト
- Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments [1.0485739694839669]
本稿では,ロボットに搭載された頭蓋前視システムによって撮像された全方位画像を用いた局所化問題に対処する。
本研究では,パノラマ画像を用いた屋内環境モデリングのためのシームズニューラルネットワークの可能性を探る。
論文 参考訳(メタデータ) (2024-07-15T08:44:37Z) - Lacunarity Pooling Layers for Plant Image Classification using Texture Analysis [0.38366697175402226]
ポーリング層は、画素強度及び/または特徴値の空間配置に符号化された重要な情報を見渡す。
そこで本研究では,特徴マップの空間的不均一性を,局所窓内における変動性の評価により捉えることを目的とした,新しいラキュナリティプーリング層を提案する。
ラキュナリティプーリング層は、任意の人工ニューラルネットワークアーキテクチャにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-04-25T00:34:52Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Self-Supervised Feature Learning for Long-Term Metric Visual
Localization [16.987148593917905]
本稿では,メトリクスの視覚的ローカライゼーションのための新しい自己教師型特徴学習フレームワークを提案する。
提案手法は, 画像照合アルゴリズムを用いて, 基底構造ラベルを使わずに画像対応を生成する。
次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。
論文 参考訳(メタデータ) (2022-11-30T21:15:05Z) - Supervised Fine-tuning Evaluation for Long-term Visual Place Recognition [14.632777952261716]
本稿では、2つの最先端のプーリング層を持つディープ畳み込みニューラルネットワークの有用性について包括的に研究する。
アーキテクチャのパラメータを学習するために、ディープラーニングのグローバル機能と3つの異なる損失関数、例えば、三重項、コントラスト、ArcFaceを比較します。
本研究は,ArcFace損失の微調整アーキテクチャが,屋外で約14%,屋内で約12%,エンド・ツー・エンドで約2つの損失を上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-14T19:16:21Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。