論文の概要: Joint Multi-Condition Representation Modelling via Matrix Factorisation for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2510.17739v1
- Date: Mon, 20 Oct 2025 16:50:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.537329
- Title: Joint Multi-Condition Representation Modelling via Matrix Factorisation for Visual Place Recognition
- Title(参考訳): 視覚的位置認識のための行列分解による複合多面表現モデル
- Authors: Timur Ismagilov, Shakaiba Majeed, Michael Milford, Tan Viet Tuyen Nguyen, Sarvapali D. Ramchurn, Shoaib Ehsan,
- Abstract要約: マルチ参照視覚的位置認識(VPR)に対処し、様々な条件下でキャプチャされた参照セットを用いて、ローカライゼーション性能を向上させる。
本稿では,複数の参照記述子を行列分解から基底表現へ変換する,学習不要で非依存な手法を提案する。
マルチ・レファレンス・データでは,Recall@1が単一参照よりも最大18%向上し,外観や視点の変化に対してマルチ・レファレンス・ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 14.020214078011515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address multi-reference visual place recognition (VPR), where reference sets captured under varying conditions are used to improve localisation performance. While deep learning with large-scale training improves robustness, increasing data diversity and model complexity incur extensive computational cost during training and deployment. Descriptor-level fusion via voting or aggregation avoids training, but often targets multi-sensor setups or relies on heuristics with limited gains under appearance and viewpoint change. We propose a training-free, descriptor-agnostic approach that jointly models places using multiple reference descriptors via matrix decomposition into basis representations, enabling projection-based residual matching. We also introduce SotonMV, a structured benchmark for multi-viewpoint VPR. On multi-appearance data, our method improves Recall@1 by up to ~18% over single-reference and outperforms multi-reference baselines across appearance and viewpoint changes, with gains of ~5% on unstructured data, demonstrating strong generalisation while remaining lightweight.
- Abstract(参考訳): マルチ参照視覚的位置認識(VPR)に対処し、様々な条件下でキャプチャされた参照セットを用いて、ローカライゼーション性能を向上させる。
大規模トレーニングによるディープラーニングは堅牢性を向上する一方で、データの多様性とモデルの複雑さは、トレーニングとデプロイメントの間に膨大な計算コストを発生させる。
投票やアグリゲーションによるディスクリプタレベルの融合はトレーニングを避けるが、多くの場合はマルチセンサーのセットアップを目標とするか、外観や視点の変化の下で限られた利得を持つヒューリスティックに依存している。
本稿では,複数参照ディスクリプタをベース表現に分解し,プロジェクションベースの残差マッチングを可能にする,トレーニングフリーで記述子に依存しない手法を提案する。
マルチ視点VPRのための構造化ベンチマークであるSotonMVも紹介する。
マルチルックアランスデータでは,Recall@1は単一参照よりも最大18%向上し,複数参照ベースラインの外観や視点の変化に対して性能が向上し,非構造化データでは約5%向上し,軽量ながら強力な一般化を示す。
関連論文リスト
- Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Structure-guided Deep Multi-View Clustering [13.593229506936682]
深いマルチビュークラスタリングは、クラスタリング性能を改善するために、複数のビューから豊富な情報を活用することを目指している。
既存のクラスタリング手法の多くは、多視点構造情報の完全なマイニングを無視することが多い。
構造誘導型深層多視点クラスタリングモデルを提案し,多視点データの分布を探索する。
論文 参考訳(メタデータ) (2025-01-17T12:42:30Z) - Balanced Multi-view Clustering [56.17836963920012]
マルチビュークラスタリング(MvC)は、さまざまなビューからの情報を統合して、基盤となるデータ構造をキャプチャするモデルの能力を高めることを目的としている。
MvCで広く使われているジョイントトレーニングパラダイムは、多視点情報を十分に活用していない可能性がある。
本稿では,ビュー固有のコントラスト正規化(VCR)を導入し,各ビューの最適化を最適化する新しいマルチビュークラスタリング(BMvC)手法を提案する。
論文 参考訳(メタデータ) (2025-01-05T14:42:47Z) - One for all: A novel Dual-space Co-training baseline for Large-scale
Multi-View Clustering [42.92751228313385]
我々は、Dual-space Co-training Large-scale Multi-view Clustering (DSCMC)という新しいマルチビュークラスタリングモデルを提案する。
提案手法の主な目的は,2つの異なる空間における協調学習を活用することにより,クラスタリング性能を向上させることである。
我々のアルゴリズムは近似線形計算複雑性を持ち、大規模データセットへの適用が成功することを保証している。
論文 参考訳(メタデータ) (2024-01-28T16:30:13Z) - Semi-supervised multi-view concept decomposition [30.699496411869834]
概念因子化(CF)は、マルチビュークラスタリングタスクにおいて優れた性能を示している。
そこで我々は,SMVCFという,新しい半教師付き多視点概念分解モデルを提案する。
SMVCFの性能を評価するために,4つの多様なデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-07-03T10:50:44Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。