論文の概要: VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Lifelong Learning
- arxiv url: http://arxiv.org/abs/2407.21416v1
- Date: Wed, 31 Jul 2024 08:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:32:01.705264
- Title: VIPeR: Visual Incremental Place Recognition with Adaptive Mining and Lifelong Learning
- Title(参考訳): VIPeR: 適応マイニングと生涯学習による視覚的インクリメンタルな位置認識
- Authors: Yuhang Ming, Minyang Xu, Xingrui Yang, Weicai Ye, Weihan Wang, Yong Peng, Weichen Dai, Wanzeng Kong,
- Abstract要約: 視覚的位置認識(VPR)は、多くの自律的・拡張現実/仮想現実システムにおいて不可欠な要素である。
既存のVPR法は、事前学習と限定的な一般化のコストで魅力的な性能を示す。
視覚的インクリメンタルな位置認識のための新しいアプローチとして,新しい環境に適応するVIPeRを提案する。
- 参考スコア(独自算出の注目度): 11.127820242792447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) is an essential component of many autonomous and augmented/virtual reality systems. It enables the systems to robustly localize themselves in large-scale environments. Existing VPR methods demonstrate attractive performance at the cost of heavy pre-training and limited generalizability. When deployed in unseen environments, these methods exhibit significant performance drops. Targeting this issue, we present VIPeR, a novel approach for visual incremental place recognition with the ability to adapt to new environments while retaining the performance of previous environments. We first introduce an adaptive mining strategy that balances the performance within a single environment and the generalizability across multiple environments. Then, to prevent catastrophic forgetting in lifelong learning, we draw inspiration from human memory systems and design a novel memory bank for our VIPeR. Our memory bank contains a sensory memory, a working memory and a long-term memory, with the first two focusing on the current environment and the last one for all previously visited environments. Additionally, we propose a probabilistic knowledge distillation to explicitly safeguard the previously learned knowledge. We evaluate our proposed VIPeR on three large-scale datasets, namely Oxford Robotcar, Nordland, and TartanAir. For comparison, we first set a baseline performance with naive finetuning. Then, several more recent lifelong learning methods are compared. Our VIPeR achieves better performance in almost all aspects with the biggest improvement of 13.65% in average performance.
- Abstract(参考訳): 視覚的位置認識(VPR)は、多くの自律的・拡張現実/仮想現実システムにおいて不可欠な要素である。
これにより、システムは大規模環境で堅牢なローカライズが可能となる。
既存のVPR法は、事前学習と限定的な一般化のコストで魅力的な性能を示す。
目に見えない環境でデプロイすると、これらのメソッドは大幅なパフォーマンス低下を示す。
そこで本研究では,視覚的インクリメンタルな位置認識のための新しいアプローチであるVIPeRを提案する。
まず、単一環境における性能と、複数の環境における一般化可能性のバランスをとるための適応的なマイニング戦略を導入する。
そして、生涯学習における破滅的な忘れを防止するために、人間の記憶システムからインスピレーションを得て、VPeRのための新しい記憶バンクを設計する。
私たちのメモリバンクには、センサメモリ、ワーキングメモリ、長期メモリが含まれており、最初の2つは現在の環境に焦点を当てており、最後の1つは以前に訪れたすべての環境に焦点を当てています。
さらに,従来の知識を明示的に保護するために,確率論的知識蒸留を提案する。
提案したVIPeRを,Oxford Robotcar, Nordland, TartanAirの3つの大規模データセットで評価した。
比較のために,まず,素早い微調整によるベースライン性能を設定した。
次に,近年の生涯学習手法を比較した。
私たちのVIPeRは、ほぼすべての面でパフォーマンスが向上し、平均パフォーマンスは13.65%向上しました。
関連論文リスト
- Structured Pruning for Efficient Visual Place Recognition [24.433604332415204]
視覚的位置認識(VPR)は、ロボットや機器のグローバルな再ローカライズに欠かせない。
本稿では,共通VPRアーキテクチャを合理化するための新しい構造化プルーニング手法を提案する。
この二重焦点はシステムの効率を大幅に向上させ、マップとモデルメモリの要求を減らし、特徴抽出と検索待ち時間を短縮する。
論文 参考訳(メタデータ) (2024-09-12T08:32:25Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Design Space Exploration of Low-Bit Quantized Neural Networks for Visual
Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。
最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。
これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。
完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2023-12-14T15:24:42Z) - Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - AnyLoc: Towards Universal Visual Place Recognition [12.892386791383025]
視覚的位置認識(VPR)は、ロボットのローカライゼーションに不可欠である。
ほとんどの性能の高いVPRアプローチは環境に特化しており、タスクに特化している。
私たちは、VPRの普遍的なソリューションを開発します -- 幅広い構造化された、非構造化された環境にわたって機能するテクニックです。
論文 参考訳(メタデータ) (2023-08-01T17:45:13Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Towards Lifelong Learning of End-to-end ASR [81.15661413476221]
lifelong learningは、マシンが新しいデータセットから新しいタスクをシーケンシャルに学習できるようにすることを目的としている。
WERの28.7%の相対的な減少は、3つの非常に異なるベンチマークコーポラを順次学習する場合の微調整ベースラインと比較して達成された。
論文 参考訳(メタデータ) (2021-04-04T13:48:53Z) - Binary Neural Networks for Memory-Efficient and Effective Visual Place
Recognition in Changing Environments [24.674034243725455]
視覚的場所認識(VPR)は、視覚データを用いて、ある場所が訪れたかどうかを判断するロボットの能力である。
CNNベースのアプローチは、小さなロボットやドローンのようなリソース制約のあるプラットフォームには適さない。
本稿では,メモリ要求と計算労力を大幅に削減する,超コンパクトモデルの新たなクラスを提案する。
論文 参考訳(メタデータ) (2020-10-01T22:59:34Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。