論文の概要: UniLoc: Towards Universal Place Recognition Using Any Single Modality
- arxiv url: http://arxiv.org/abs/2412.12079v1
- Date: Mon, 16 Dec 2024 18:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:56:32.910852
- Title: UniLoc: Towards Universal Place Recognition Using Any Single Modality
- Title(参考訳): UniLoc: 任意の単一モダリティを用いた普遍的な場所認識を目指して
- Authors: Yan Xia, Zhendong Li, Yun-Jin Li, Letian Shi, Hu Cao, João F. Henriques, Daniel Cremers,
- Abstract要約: 位置認識のための汎用的なソリューションであるUniLocを開発した。
UniLocは、インスタンスレベルのマッチングとシーンレベルのマッチングの2つのレベルで階層的にマッチングすることで学習する。
KITTI-360データセットの実験は、位置認識におけるクロスモダリティの利点を実証している。
- 参考スコア(独自算出の注目度): 46.056160460726396
- License:
- Abstract: To date, most place recognition methods focus on single-modality retrieval. While they perform well in specific environments, cross-modal methods offer greater flexibility by allowing seamless switching between map and query sources. It also promises to reduce computation requirements by having a unified model, and achieving greater sample efficiency by sharing parameters. In this work, we develop a universal solution to place recognition, UniLoc, that works with any single query modality (natural language, image, or point cloud). UniLoc leverages recent advances in large-scale contrastive learning, and learns by matching hierarchically at two levels: instance-level matching and scene-level matching. Specifically, we propose a novel Self-Attention based Pooling (SAP) module to evaluate the importance of instance descriptors when aggregated into a place-level descriptor. Experiments on the KITTI-360 dataset demonstrate the benefits of cross-modality for place recognition, achieving superior performance in cross-modal settings and competitive results also for uni-modal scenarios. Our project page is publicly available at https://yan-xia.github.io/projects/UniLoc/.
- Abstract(参考訳): 現在,ほとんどの場所認識手法は単一モダリティ検索に重点を置いている。
特定の環境ではうまく機能するが、クロスモーダルメソッドはマップとクエリソースをシームレスに切り替えることによって、より柔軟性を提供する。
また、統一されたモデルを持つことで計算要求を減らし、パラメータを共有することでサンプル効率を高めることを約束している。
そこで本研究では,単一の問合せモダリティ(自然言語,イメージ,ポイントクラウド)で動作可能な位置認識システムUniLocを開発した。
UniLocは、大規模コントラスト学習の最近の進歩を活用し、インスタンスレベルのマッチングとシーンレベルのマッチングという2つのレベルで階層的にマッチングすることで学習する。
具体的には,SAP(Self-Attention based Pooling)モジュールを提案する。
KITTI-360データセットの実験では、位置認識におけるクロスモダリティの利点が示され、クロスモダリティ設定における優れたパフォーマンスと、ユニモダリティシナリオに対する競争結果が達成された。
私たちのプロジェクトページはhttps://yan-xia.github.io/projects/UniLoc/で公開されています。
関連論文リスト
- CLIP-Loc: Multi-modal Landmark Association for Global Localization in
Object-based Maps [0.16492989697868893]
本稿では,オブジェクトマップとカメラ画像を用いたグローバルローカライゼーションのためのマルチモーダルデータアソシエーション手法について述べる。
本稿では,自然言語記述によるランドマークのラベル付けと,画像観察と概念的類似性に基づく対応抽出を提案する。
論文 参考訳(メタデータ) (2024-02-08T22:59:12Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot
Class-Agnostic Counting [71.38754976584009]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - Re-thinking Federated Active Learning based on Inter-class Diversity [16.153683223016973]
2つのセレクタモデルの優越性は、大域的および局所的なクラス間多様性に依存することを示す。
局所的不均一度と大域的不均衡比の変動に頑健なFALサンプリング戦略であるLoGoを提案する。
LoGoは、38の実験的な設定の合計で、6つのアクティブな学習戦略を一貫して上回っている。
論文 参考訳(メタデータ) (2023-03-22T05:21:21Z) - Prototype-Based Layered Federated Cross-Modal Hashing [14.844848099134648]
本稿では,プロトタイプをベースとした層状層状クロスモーダルハッシュ法を提案する。
具体的には、サーバ上のインスタンスとクラス間の類似性を学ぶためにプロトタイプが導入された。
パーソナライズされたフェデレーション学習を実現するために、ハイパーネットワークがサーバ上に展開され、異なるレイヤのローカルモデルの重みを動的に更新する。
論文 参考訳(メタデータ) (2022-10-27T15:11:12Z) - Learning to Affiliate: Mutual Centralized Learning for Few-shot
Classification [33.19451499073551]
少ないショット学習は、トレーニング中に見えない新しいタスクに容易に適応できる分類器を学習することを目的としている。
最近の手法では、混合グローバル機能を使う代わりに、局所的な特徴の集合を使って画像を密に表現する傾向がある。
論文 参考訳(メタデータ) (2021-06-10T06:16:00Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Multi-Center Federated Learning [62.57229809407692]
本稿では,フェデレート学習のための新しい多中心集約機構を提案する。
非IIDユーザデータから複数のグローバルモデルを学び、同時にユーザとセンタ間の最適なマッチングを導出する。
ベンチマークデータセットによる実験結果から,本手法はいくつかの一般的なフェデレーション学習法より優れていることが示された。
論文 参考訳(メタデータ) (2020-05-03T09:14:31Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。