論文の概要: AnyLoc: Towards Universal Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2308.00688v1
- Date: Tue, 1 Aug 2023 17:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 13:22:44.284285
- Title: AnyLoc: Towards Universal Visual Place Recognition
- Title(参考訳): AnyLoc: ユニバーサルな視覚的場所認識を目指して
- Authors: Nikhil Keetha, Avneesh Mishra, Jay Karhade, Krishna Murthy
Jatavallabhula, Sebastian Scherer, Madhava Krishna, Sourav Garg
- Abstract要約: 視覚的位置認識(VPR)は、ロボットのローカライゼーションに不可欠である。
ほとんどの性能の高いVPRアプローチは環境に特化しており、タスクに特化している。
私たちは、VPRの普遍的なソリューションを開発します -- 幅広い構造化された、非構造化された環境にわたって機能するテクニックです。
- 参考スコア(独自算出の注目度): 11.040957070076697
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual Place Recognition (VPR) is vital for robot localization. To date, the
most performant VPR approaches are environment- and task-specific: while they
exhibit strong performance in structured environments (predominantly urban
driving), their performance degrades severely in unstructured environments,
rendering most approaches brittle to robust real-world deployment. In this
work, we develop a universal solution to VPR -- a technique that works across a
broad range of structured and unstructured environments (urban, outdoors,
indoors, aerial, underwater, and subterranean environments) without any
re-training or fine-tuning. We demonstrate that general-purpose feature
representations derived from off-the-shelf self-supervised models with no
VPR-specific training are the right substrate upon which to build such a
universal VPR solution. Combining these derived features with unsupervised
feature aggregation enables our suite of methods, AnyLoc, to achieve up to 4X
significantly higher performance than existing approaches. We further obtain a
6% improvement in performance by characterizing the semantic properties of
these features, uncovering unique domains which encapsulate datasets from
similar environments. Our detailed experiments and analysis lay a foundation
for building VPR solutions that may be deployed anywhere, anytime, and across
anyview. We encourage the readers to explore our project page and interactive
demos: https://anyloc.github.io/.
- Abstract(参考訳): 視覚的位置認識(VPR)はロボットの局所化に不可欠である。
これまでのところ、最もパフォーマンスの高いVPRアプローチは環境に特化しており、構造化された環境(主に都市部での運転)で強いパフォーマンスを示す一方で、その性能は非構造化環境で著しく低下し、ほとんどのアプローチが堅牢な実環境への展開に脆弱である。
本研究は,vprの普遍的な解決法を開発することを目的としている。この手法は,再訓練や微調整をすることなく,広い範囲の構造化・非構造化環境(都市,屋外,屋内,空中,水中,地下環境)にまたがる。
このような汎用的なVPRソリューションを構築する上で,VPR固有のトレーニングを伴わない市販の自己教師型モデルから派生した汎用的特徴表現が正しい基盤であることを実証する。
これらの派生した機能と教師なしの機能集約を組み合わせることで、AnyLocというメソッドが既存のアプローチよりも最大4倍高いパフォーマンスを実現できます。
さらに,これらの特徴のセマンティクス特性を特徴付け,類似した環境からデータセットをカプセル化したユニークなドメインを明らかにすることで,性能が6%向上した。
私たちの詳細な実験と分析は、どこでも、いつでも、そしてanyviewを通じてデプロイ可能なvprソリューションを構築するための基盤となります。
私たちは読者に対して、プロジェクトページとインタラクティブなデモを探索することを勧めています。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels [57.05834683261658]
FSDv2は、手作りのインスタンスレベルの表現によって引き起こされる帰納バイアスを排除しつつ、以前のFSDv1を単純化することを目的とした進化である。
仮想ボクセルエンコーダ,仮想ボクセルミキサー,仮想ボクセル割り当て戦略など,仮想ボクセル概念を補完するコンポーネント群を開発した。
論文 参考訳(メタデータ) (2023-08-07T17:59:48Z) - A-MuSIC: An Adaptive Ensemble System For Visual Place Recognition In
Changing Environments [22.58641358408613]
視覚的位置認識(VPR)は、ロボットナビゲーションとローカライゼーションシステムにおいて不可欠な要素である。
すべての環境条件において、単一のVPR技術が優れているわけではない。
A-MuSIC(Adaptive Multi-Self Identification and Correction)と呼ばれる適応型VPRシステム
A-MuSICは、テストされたすべてのベンチマークデータセット間で最先端のVPRパフォーマンスにマッチまたは打ち勝つ。
論文 参考訳(メタデータ) (2023-03-24T19:25:22Z) - MixVPR: Feature Mixing for Visual Place Recognition [3.6739949215165164]
視覚的場所認識(VPR)は、モバイルロボティクスと自律運転の重要な部分である。
我々は,事前学習したバックボーンから特徴マップをグローバルな特徴の集合として取り出す,新しい総合的特徴集約技術であるMixVPRを紹介する。
複数の大規模ベンチマークで広範な実験を行い,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-03T19:24:03Z) - StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition [49.58170209388029]
視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
我々は、RGBグローバル機能における構造的知識を高めるために、VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案する。
計算コストを低く保ちながら最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-02T02:52:01Z) - SwitchHit: A Probabilistic, Complementarity-Based Switching System for
Improved Visual Place Recognition in Changing Environments [20.917586014941033]
あらゆる種類の環境で動作可能な普遍的なVPR技術は存在しない。
リソース制約のある組み込みプラットフォームでは,複数のVPRテクニックの並列実行が禁止される可能性がある。
本稿では,確率的相補性に基づくスイッチングVPRシステムであるSwitchHitを提案する。
論文 参考訳(メタデータ) (2022-03-01T16:23:22Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。