論文の概要: Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval
- arxiv url: http://arxiv.org/abs/2003.11211v1
- Date: Wed, 25 Mar 2020 04:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 03:24:19.125221
- Title: Two-stage Discriminative Re-ranking for Large-scale Landmark Retrieval
- Title(参考訳): 大規模ランドマーク検索のための2段階判別再ランキング
- Authors: Shuhei Yokoo, Kohei Ozaki, Edgar Simo-Serra, and Satoshi Iizuka
- Abstract要約: 大規模ランドマーク画像検索のための効率的なパイプラインを提案する。
我々のアプローチは、コサインソフトマックスロスで訓練された畳み込みニューラルネットワークを用いて、特徴空間に画像を埋め込むことに基づいている。
私たちの方法では、Google Landmark Retrieval 2019チャレンジで1位、KaggleでのGoogle Landmark Recognition 2019チャレンジで3位を獲得しました。
- 参考スコア(独自算出の注目度): 24.630337893857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient pipeline for large-scale landmark image retrieval
that addresses the diversity of the dataset through two-stage discriminative
re-ranking. Our approach is based on embedding the images in a feature-space
using a convolutional neural network trained with a cosine softmax loss. Due to
the variance of the images, which include extreme viewpoint changes such as
having to retrieve images of the exterior of a landmark from images of the
interior, this is very challenging for approaches based exclusively on visual
similarity. Our proposed re-ranking approach improves the results in two steps:
in the sort-step, $k$-nearest neighbor search with soft-voting to sort the
retrieved results based on their label similarity to the query images, and in
the insert-step, we add additional samples from the dataset that were not
retrieved by image-similarity. This approach allows overcoming the low visual
diversity in retrieved images. In-depth experimental results show that the
proposed approach significantly outperforms existing approaches on the
challenging Google Landmarks Datasets. Using our methods, we achieved 1st place
in the Google Landmark Retrieval 2019 challenge and 3rd place in the Google
Landmark Recognition 2019 challenge on Kaggle. Our code is publicly available
here: \url{https://github.com/lyakaap/Landmark2019-1st-and-3rd-Place-Solution}
- Abstract(参考訳): 本稿では,2段階の識別的再ランク付けによってデータセットの多様性に対処する,大規模ランドマーク画像検索のための効率的なパイプラインを提案する。
本手法は,コサインソフトマックス損失を訓練した畳み込みニューラルネットワークを用いて,特徴空間に画像を埋め込む手法である。
内部の画像からランドマークの外観の画像を取得するなどの極端な視点の変化を含む画像のばらつきのため、視覚的類似性のみに基づくアプローチでは、これは非常に困難である。
提案手法では,検索結果のラベルの類似性に基づくソートをソフト投票による$k$-nearest 近傍探索で行い,挿入ステップでは,画像類似性によって検索されなかったデータセットのサンプルを追加する。
このアプローチにより、取得した画像の視覚的多様性の低さを克服できる。
詳細な実験結果から、提案手法は、Google Landmarks Datasetsに挑戦する既存のアプローチよりも大幅に優れていることが示された。
私たちの方法では、Google Landmark Retrieval 2019チャレンジで1位、KaggleでのGoogle Landmark Recognition 2019チャレンジで3位を獲得しました。
我々のコードはここで公開されている。 \url{https://github.com/lyakaap/Landmark2019-1st-and-3rd-Place-Solution}
関連論文リスト
- FaVoR: Features via Voxel Rendering for Camera Relocalization [23.7893950095252]
カメラ再ローカライズ手法は、高密度画像アライメントから、クエリ画像からの直接カメラポーズ回帰まで様々である。
本稿では,世界規模で疎密だが局所的に密集した2次元特徴の3次元表現を活用する新しい手法を提案する。
一連のフレーム上でのランドマークの追跡と三角測量により、追跡中に観察された画像パッチ記述子をレンダリングするために最適化されたスパースボクセルマップを構築する。
論文 参考訳(メタデータ) (2024-09-11T18:58:16Z) - DeepClean: Integrated Distortion Identification and Algorithm Selection for Rectifying Image Corruptions [1.8024397171920883]
画像歪みの自動分類と修正のための2段階逐次計画手法を提案する。
提案手法の利点は、入力画像に条件付けされた動的再構成と、推論時に未確認候補アルゴリズムの一般化である。
論文 参考訳(メタデータ) (2024-07-23T08:57:11Z) - OsmLocator: locating overlapping scatter marks with a non-training
generative perspective [48.50108853199417]
重複するマークの配置には、テクスチャの欠如、文脈の少ない情報、ハロー形状、小さなサイズなど、多くの困難がある。
ここでは、クラスタリングに基づく再視覚化の最適化問題として、非学習的生成の観点から定式化する。
特に,異なるマーカーと様々な重なり合いの重なり合いを持つ何百もの散乱画像を含む2023というデータセットを構築し,提案手法を既存の手法と比較した。
論文 参考訳(メタデータ) (2023-12-18T12:39:48Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - DeepI2P: Image-to-Point Cloud Registration via Deep Classification [71.3121124994105]
DeepI2Pは、イメージとポイントクラウドの間のクロスモダリティ登録のための新しいアプローチです。
本手法は,カメラとライダーの座標フレーム間の相対的剛性変換を推定する。
登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。
論文 参考訳(メタデータ) (2021-04-08T04:27:32Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Supporting large-scale image recognition with out-of-domain samples [0.0]
本稿では,インスタンスレベルの認識を行うための効率的なエンドツーエンド手法を提案する。
我々は、付加的な角縁損失で訓練された畳み込みニューラルネットワークを用いて、高次元の特徴空間に画像を埋め込む。
次に、領域外画像との類似性を利用した予測とフィルタノイズを効率よく再現する。
論文 参考訳(メタデータ) (2020-10-04T18:44:01Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。