論文の概要: Generalized Contrastive Optimization of Siamese Networks for Place
Recognition
- arxiv url: http://arxiv.org/abs/2103.06638v1
- Date: Thu, 11 Mar 2021 12:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:44:50.213922
- Title: Generalized Contrastive Optimization of Siamese Networks for Place
Recognition
- Title(参考訳): 位置認識のためのシームズネットワークの一般化コントラスト最適化
- Authors: Mar\'ia Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov
- Abstract要約: 連続測度として画像類似性に依存する一般化コントラスト損失関数を提案する。
GCL関数を用いて訓練したシアムCNNと、改良されたアノテーションは、バイナリよりも一貫して優れていたことを実証する。
我々のモデルは、NetVLADを含む最先端の手法よりも優れたMSLSを訓練し、ピッツバーグ、東京TM、東京24/7データセットでよく一般化した。
- 参考スコア(独自算出の注目度): 12.281026299057551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition is a challenging task in computer vision and a key
component of camera-based localization and navigation systems. Recently,
Convolutional Neural Networks (CNNs) achieved high results and good
generalization capabilities. They are usually trained using pairs or triplets
of images labeled as either similar or dissimilar, in a binary fashion. In
practice, the similarity between two images is not binary, but rather
continuous. Furthermore, training these CNNs is computationally complex and
involves costly pair and triplet mining strategies.
We propose a Generalized Contrastive loss (GCL) function that relies on image
similarity as a continuous measure, and use it to train a siamese CNN.
Furthermore, we propose three techniques for automatic annotation of image
pairs with labels indicating their degree of similarity, and deploy them to
re-annotate the MSLS, TB-Places, and 7Scenes datasets.
We demonstrate that siamese CNNs trained using the GCL function and the
improved annotations consistently outperform their binary counterparts. Our
models trained on MSLS outperform the state-of-the-art methods, including
NetVLAD, and generalize well on the Pittsburgh, TokyoTM and Tokyo 24/7
datasets. Furthermore, training a siamese network using the GCL function does
not require complex pair mining. We release the source code at
https://github.com/marialeyvallina/generalized_contrastive_loss.
- Abstract(参考訳): 視覚位置認識はコンピュータビジョンにおける課題であり、カメラベースのローカライゼーションとナビゲーションシステムの主要なコンポーネントである。
近年,畳み込みニューラルネットワーク(CNN)は高い結果と優れた一般化能力を得た。
それらは通常、二分法で類似または類似とラベル付けされた画像のペアまたは三重項を使って訓練される。
実際には、2つの画像の類似性はバイナリではなく、むしろ連続である。
さらに、これらのcnnの訓練は計算が複雑であり、コストのかかるペアとトリプルトマイニング戦略を伴う。
本稿では,連続的な尺度として画像類似性に依存する一般コントラスト損失(GCL)関数を提案し,それをシアムCNNの訓練に利用する。
さらに,MSLS,TB-Places,7Scenesデータセットを再アノテーションするために,画像対の自動アノテーションと類似度を示すラベルの3つの手法を提案する。
GCL関数を用いて訓練したシアムCNNと、改良されたアノテーションは、バイナリよりも一貫して優れていたことを実証する。
我々のモデルは、NetVLADを含む最先端の手法よりも優れたMSLSを訓練し、ピッツバーグ、東京TM、東京24/7データセットでよく一般化した。
さらに、GCL関数を用いたシアムネットワークのトレーニングは、複雑なペアマイニングを必要としない。
ソースコードはhttps://github.com/marialeyvallina/generalized_contrastive_lossでリリースします。
関連論文リスト
- Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Do End-to-end Stereo Algorithms Under-utilize Information? [7.538482310185133]
本稿では,2次元および3次元の畳み込みネットワークに適応フィルタリングと半グローバルアグリゲーションを組み込むことによって,エンドツーエンドのステレオマッチングを実現する方法を示す。
改善は、画像からのRGB情報を信号として利用し、マッチングプロセスを動的にガイドすることによる。
論文 参考訳(メタデータ) (2020-10-14T18:32:39Z) - Pairwise Relation Learning for Semi-supervised Gland Segmentation [90.45303394358493]
病理組織像における腺分節に対するPRS2モデルを提案する。
このモデルはセグメンテーションネットワーク(S-Net)とペア関係ネットワーク(PR-Net)から構成される。
我々は,GlaSデータセットの最近の5つの手法とCRAGデータセットの最近の3つの手法を比較した。
論文 参考訳(メタデータ) (2020-08-06T15:02:38Z) - Reinforcement Learning Based Handwritten Digit Recognition with
Two-State Q-Learning [1.8782750537161614]
本稿では,ディープラーニングと強化学習に基づくハイブリッドアプローチを提案する。
Q-Learningは2つのQ状態と4つのアクションで使用される。
提案手法は,AlexNet,CNN-Nearest Neighbor,CNNSupport Vector Machineなどの現代技術よりも優れている。
論文 参考訳(メタデータ) (2020-06-28T14:23:36Z) - On the Texture Bias for Few-Shot CNN Segmentation [21.349705243254423]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-09T11:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。