Fugu-MT 論文翻訳(概要): MVC-VPR: Mutual Learning of Viewpoint Classification and Visual Place Recognition

論文の概要: MVC-VPR: Mutual Learning of Viewpoint Classification and Visual Place Recognition

arxiv url: http://arxiv.org/abs/2412.09199v2
Date: Fri, 13 Dec 2024 16:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 13:36:12.838604
Title: MVC-VPR: Mutual Learning of Viewpoint Classification and Visual Place Recognition
Title（参考訳）: MVC-VPR:視点分類と視覚的位置認識の相互学習
Authors: Qiwen Gu, Xufei Wang, Fenglin Zhang, Junqiao Zhao, Siyue Tao, Chen Ye, Tiantian Feng, Changjun Jiang,
Abstract要約: 本稿では,視点的自己分類と視覚的位置認識の相互学習を紹介する。データセットは、位置認識のための記述子抽出器を同時に訓練しながら、教師なしの方法で分割される。提案手法は, 基底真理ラベルを用いてデータセットを分割する, 最先端(SOTA)手法を抽出する。
参考スコア（独自算出の注目度）: 13.681827205077727
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual Place Recognition (VPR) aims to robustly identify locations by leveraging image retrieval based on descriptors encoded from environmental images. However, drastic appearance changes of images captured from different viewpoints at the same location pose incoherent supervision signals for descriptor learning, which severely hinder the performance of VPR. Previous work proposes classifying images based on manually defined rules or ground truth labels for viewpoints, followed by descriptor training based on the classification results. However, not all datasets have ground truth labels of viewpoints and manually defined rules may be suboptimal, leading to degraded descriptor performance.To address these challenges, we introduce the mutual learning of viewpoint self-classification and VPR. Starting from coarse classification based on geographical coordinates, we progress to finer classification of viewpoints using simple clustering techniques. The dataset is partitioned in an unsupervised manner while simultaneously training a descriptor extractor for place recognition. Experimental results show that this approach almost perfectly partitions the dataset based on viewpoints, thus achieving mutually reinforcing effects. Our method even excels state-of-the-art (SOTA) methods that partition datasets using ground truth labels.
Abstract（参考訳）: 視覚的位置認識(VPR)は,環境画像から符号化されたディスクリプタに基づく画像検索を活用することで,位置情報を堅牢に識別することを目的としている。しかし、同じ位置で異なる視点から撮影された画像の劇的な外観変化は、記述子学習のための一貫性のない監視信号となり、VPRの性能を著しく損なう。従来の研究では、手動で定義されたルールや視点の真理ラベルに基づいて画像の分類を提案し、続いて分類結果に基づいて記述者による訓練を行っている。しかし、全てのデータセットが視点の真理ラベルを持っているわけではなく、手動で定義されたルールが最適である可能性があるため、劣化した記述器の性能が向上し、これらの課題に対処するために、視点自己分類とVPRの相互学習を導入する。地理的座標に基づく粗い分類から始まり、簡単なクラスタリング手法を用いて視点のより詳細な分類を進める。データセットは、位置認識のための記述子抽出器を同時に訓練しながら、教師なしの方法で分割される。実験の結果、この手法は視点に基づいてデータセットをほぼ完全に分割し、相互に強化効果を達成することが示された。提案手法は, 基底真理ラベルを用いてデータセットを分割する, 最先端(SOTA)手法を抽出する。

関連論文リスト

Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文参考訳（メタデータ） (2024-10-25T06:59:11Z)
Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。 VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文参考訳（メタデータ） (2024-06-23T20:00:20Z)
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文参考訳（メタデータ） (2024-06-05T04:08:41Z)
Data-efficient Large Scale Place Recognition with Graded Similarity Supervision [10.117451511942267]
視覚的位置認識(VPR)はコンピュータビジョンの基本課題である。既存の方法は、同じ場所を表すか、そうでないイメージペアを使って訓練される。 VPRデータセットを再ラベルするための自動再アノテーション戦略をデプロイする。コントラストネットワークのトレーニングに,グレード付き類似性ラベルを用いた新しい一般化コントラスト損失(GCL)を提案する。
論文参考訳（メタデータ） (2023-03-21T10:56:57Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)
LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文参考訳（メタデータ） (2022-04-06T17:48:18Z)
SCARF: Self-Supervised Contrastive Learning using Random Feature Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。 SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文参考訳（メタデータ） (2021-06-29T08:08:33Z)
Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification [114.56752624945142]
我々は、最も一般的なランダムサンプリング手法である有名なpkサンプリングは、深層メトリック学習にとって有益で効率的ではないと主張する。大規模計量学習のためのグラフサンプリング(GS)と呼ばれる効率的なミニバッチサンプリング手法を提案する。
論文参考訳（メタデータ） (2021-04-04T06:44:15Z)
Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。 IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文参考訳（メタデータ） (2020-07-23T06:22:40Z)
Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文参考訳（メタデータ） (2020-04-14T16:29:42Z)
Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文参考訳（メタデータ） (2020-04-12T03:53:53Z)
High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文参考訳（メタデータ） (2020-03-18T12:18:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。