論文の概要: Hierarchical localization with panoramic views and triplet loss functions
- arxiv url: http://arxiv.org/abs/2404.14117v2
- Date: Fri, 22 Nov 2024 15:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:31.993929
- Title: Hierarchical localization with panoramic views and triplet loss functions
- Title(参考訳): パノラマビューと三重項損失関数による階層的局所化
- Authors: Marcos Alfaro, Juan José Cabrera, María Flores, Óscar Reinoso, Luis Payá,
- Abstract要約: 本研究の目的は,移動ロボットの安全なナビゲーションに不可欠な視覚的位置決めに取り組むことである。
提案手法はパノラマ画像と三重畳み込みニューラルネットワークを用いる。
提案手法の限界を探索するため,異なる屋内環境下で三重項ネットワークを同時にテストした。
- 参考スコア(独自算出の注目度): 2.663377882489275
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The main objective of this paper is to tackle visual localization, which is essential for the safe navigation of mobile robots. The solution we propose employs panoramic images and triplet convolutional neural networks. We seek to exploit the properties of such architectures to address both hierarchical and global localization in indoor environments, which are prone to visual aliasing and other phenomena. Considering their importance in these architectures, a complete comparative evaluation of different triplet loss functions is performed. The experimental section proves that triplet networks can be trained with a relatively low number of images captured under a specific lighting condition and even so, the resulting networks are a robust tool to perform visual localization under dynamic conditions. Our approach has been evaluated against some of these effects, such as changes in the lighting conditions, occlusions, noise and motion blurring. Furthermore, to explore the limits of our approach, triplet networks have been tested in different indoor environments simultaneously. In all the cases, these architectures have demonstrated a great capability to generalize to diverse and challenging scenarios. The code used in the experiments is available at https://github.com/MarcosAlfaro/TripletNetworksIndoorLocalization.git.
- Abstract(参考訳): 本研究の目的は,移動ロボットの安全なナビゲーションに不可欠な視覚的位置決めに取り組むことである。
提案手法はパノラマ画像と三重畳み込みニューラルネットワークを用いる。
室内環境における階層的およびグローバルなローカライゼーションに対処するために,このようなアーキテクチャの特性を活用しようと試みる。
これらのアーキテクチャにおけるそれらの重要性を考慮すると、異なる三重項損失関数の完全な比較評価を行う。
実験のセクションでは、特定の照明条件下で撮影された比較的少ない画像で三重項ネットワークをトレーニングできることが示されており、なおかつ、結果のネットワークは動的条件下で視覚的ローカライゼーションを行うための堅牢なツールである。
提案手法は,照明条件の変化,閉塞,騒音,動きのぼかしなど,これらの効果に対して評価されている。
さらに,本手法の限界を探索するため,異なる屋内環境下で三重項ネットワークを同時に実験した。
あらゆるケースにおいて、これらのアーキテクチャは、多様で挑戦的なシナリオに一般化する優れた能力を示している。
実験で使用されたコードはhttps://github.com/MarcosAlfaro/TripletNetworksIndoorLocalization.gitで公開されている。
関連論文リスト
- Bridging the Gap Between Ideal and Real-world Evaluation: Benchmarking AI-Generated Image Detection in Challenging Scenarios [54.07895223545793]
本稿では,実世界ロバストネスデータセット(RRDataset)を導入し,3次元にわたる検出モデルの包括的評価を行う。
RRDatasetには7つの主要なシナリオの高品質なイメージが含まれている。
我々はRRDataset上で17の検出器と10の視覚言語モデル(VLM)をベンチマークし、大規模な人間実験を行った。
論文 参考訳(メタデータ) (2025-09-11T06:15:52Z) - Task-based Loss Functions in Computer Vision: A Comprehensive Review [6.831703240486857]
損失関数はディープラーニングの中心であり、モデルがどのように学習し、さまざまなタスクで実行するかを形作る。
本稿では, 損失関数の包括的レビューを行い, 平均二乗誤差やクロスエントロピーといった基本的な指標を, 逆数や拡散損失などの高度な関数に適用する。
論文 参考訳(メタデータ) (2025-04-05T18:07:20Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Enhancing Environmental Robustness in Few-shot Learning via Conditional Representation Learning [27.549889991320203]
ドメイン固有の視覚認識において、トレーニングデータの不足を克服するために、ショットラーニングが広く活用されている。
現実のシナリオでは、複雑な背景、様々な照明条件、長距離射撃、移動目標などの環境要因は、テスト画像に多くの不完全なターゲットやノイズ破壊を生じさせる。
本稿では,それぞれの表現過程における条件情報として,トレーニングとテスト画像間の相互作用を統合する新しい条件表現学習ネットワーク(CRLNet)を提案する。
論文 参考訳(メタデータ) (2025-02-03T09:18:03Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations [8.522160106746478]
様々な3次元地図表現にまたがる単一カメラ画像のローカライズが可能なグローバルな視覚的ローカライゼーションシステムを提案する。
本システムは,シーンの新たなビューを合成し,RGBと深度画像のペアを作成することでデータベースを生成する。
NeRF合成画像は、クエリ画像を平均72%の成功率でローカライズし、優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-21T19:37:17Z) - An experimental evaluation of Siamese Neural Networks for robot localization using omnidirectional imaging in indoor environments [1.0485739694839669]
本稿では,ロボットに搭載された頭蓋前視システムによって撮像された全方位画像を用いた局所化問題に対処する。
本研究では,パノラマ画像を用いた屋内環境モデリングのためのシームズニューラルネットワークの可能性を探る。
論文 参考訳(メタデータ) (2024-07-15T08:44:37Z) - Lacunarity Pooling Layers for Plant Image Classification using Texture Analysis [0.38366697175402226]
ポーリング層は、画素強度及び/または特徴値の空間配置に符号化された重要な情報を見渡す。
そこで本研究では,特徴マップの空間的不均一性を,局所窓内における変動性の評価により捉えることを目的とした,新しいラキュナリティプーリング層を提案する。
ラキュナリティプーリング層は、任意の人工ニューラルネットワークアーキテクチャにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-04-25T00:34:52Z) - Improving Hand Recognition in Uncontrolled and Uncooperative
Environments using Multiple Spatial Transformers and Loss Functions [13.47664951012019]
既存の手動画像認識手法の多くは, ユーザの協力を得て, 制御された環境下で収集した手動画像に対して良好に動作する。
マルチ空間変換器ネットワーク(MSTN)と多重損失関数を組み合わせたアルゴリズムを提案する。
実験結果から,提案アルゴリズムは,これらの非制御・非協調環境における既存手法よりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T14:08:48Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Enhancing Deformable Local Features by Jointly Learning to Detect and
Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。
鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。
提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-02T18:01:51Z) - Self-Supervised Feature Learning for Long-Term Metric Visual
Localization [16.987148593917905]
本稿では,メトリクスの視覚的ローカライゼーションのための新しい自己教師型特徴学習フレームワークを提案する。
提案手法は, 画像照合アルゴリズムを用いて, 基底構造ラベルを使わずに画像対応を生成する。
次に、画像ペアをサンプリングして、深層ニューラルネットワークをトレーニングし、関連する記述子とスコアのスパースな特徴を学習する。
論文 参考訳(メタデータ) (2022-11-30T21:15:05Z) - Supervised Fine-tuning Evaluation for Long-term Visual Place Recognition [14.632777952261716]
本稿では、2つの最先端のプーリング層を持つディープ畳み込みニューラルネットワークの有用性について包括的に研究する。
アーキテクチャのパラメータを学習するために、ディープラーニングのグローバル機能と3つの異なる損失関数、例えば、三重項、コントラスト、ArcFaceを比較します。
本研究は,ArcFace損失の微調整アーキテクチャが,屋外で約14%,屋内で約12%,エンド・ツー・エンドで約2つの損失を上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-14T19:16:21Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Stereoscopic Universal Perturbations across Different Architectures and
Datasets [60.021985610201156]
本研究では,画像の逆摂動が不均一性推定タスクの深部ステレオマッチングネットワークに与える影響について検討する。
本稿では,データセット内の任意のステレオ画像対に追加されると,ステレオネットワークを騙すことのできる,単一の摂動セットを構築する方法を提案する。
我々の摂動は、最先端のステレオネットワークのD1エラーを1%から87%に増やすことができる。
論文 参考訳(メタデータ) (2021-12-12T02:11:31Z) - A Decidability-Based Loss Function [2.5919311269669003]
生体認証問題は、ディープラーニングモデルを使用して画像から特徴を抽出する。
本研究では,検証ルーチンの埋め込み品質を向上させるために,決定可能性指数に基づく損失関数を提案する。
提案手法は,4つのベンチマークにおいて,ソフトマックス(クロスエントロピー),トリプレットソフトハード,マルチ類似性損失に対して比較される。
論文 参考訳(メタデータ) (2021-09-12T14:26:27Z) - Frequency-aware Discriminative Feature Learning Supervised by
Single-Center Loss for Face Forgery Detection [89.43987367139724]
顔の偽造検出は、コンピュータビジョンへの関心をますます高めている。
近年の業績は良好なものとなっているが、いまだに無視できない問題がある。
本稿では,新しい周波数認識型特徴学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-16T14:17:17Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。