論文の概要: Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through
Deep Learning
- arxiv url: http://arxiv.org/abs/2005.00725v1
- Date: Sat, 2 May 2020 06:52:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 12:42:33.850973
- Title: Cross-View Image Retrieval -- Ground to Aerial Image Retrieval through
Deep Learning
- Title(参考訳): クロスビュー画像検索 -深層学習による地上から空中画像検索
- Authors: Numan Khurshid, Talha Hanif, Mohbat Tharani, Murtaza Taj
- Abstract要約: 我々は,クロスビュー画像検索CVIRと呼ばれる,多視点画像を対象とした新しいクロスモーダル検索手法を提案する。
本研究の目的は,ストリートビュー画像からのサンプルを衛星ビュー画像と直接比較する,特徴空間と埋め込み空間を見出すことである。
この比較のために、DeepCVIRという新しい深層学習ソリューションが提案されている。
- 参考スコア(独自算出の注目度): 3.326320568999945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval aims to measure the content similarity between
different types of data. The idea has been previously applied to visual, text,
and speech data. In this paper, we present a novel cross-modal retrieval method
specifically for multi-view images, called Cross-view Image Retrieval CVIR. Our
approach aims to find a feature space as well as an embedding space in which
samples from street-view images are compared directly to satellite-view images
(and vice-versa). For this comparison, a novel deep metric learning based
solution "DeepCVIR" has been proposed. Previous cross-view image datasets are
deficient in that they (1) lack class information; (2) were originally
collected for cross-view image geolocalization task with coupled images; (3) do
not include any images from off-street locations. To train, compare, and
evaluate the performance of cross-view image retrieval, we present a new 6
class cross-view image dataset termed as CrossViewRet which comprises of images
including freeway, mountain, palace, river, ship, and stadium with 700
high-resolution dual-view images for each class. Results show that the proposed
DeepCVIR outperforms conventional matching approaches on the CVIR task for the
given dataset and would also serve as the baseline for future research.
- Abstract(参考訳): クロスモーダル検索は、異なるタイプのデータ間のコンテンツ類似度を測定することを目的としている。
このアイデアは以前、視覚、テキスト、および音声データに適用された。
本稿では,多視点画像に特有なクロスモーダル検索手法であるcross-view image retrieval cvirを提案する。
我々のアプローチは、ストリートビュー画像からのサンプルを衛星画像と直接比較する埋め込み空間だけでなく、特徴空間を見つけることを目的としています。
この比較のために、DeepCVIRという新しい深層学習ソリューションが提案されている。
従来のクロスビュー画像データセットでは,(1)クラス情報の欠如,(2)画像が結合したクロスビュー画像のジオローカライゼーションタスクのために収集されたこと,(3)オフストリート画像は含まないこと,などが不足していた。
クロスビュー画像検索の訓練,比較,評価を行うため,高速道路,山,宮殿,川,船,スタジアムなどを含む6種類のクロスビュー画像データセットを新たに提供し,700枚の高解像度デュアルビュー画像を用いた。
提案したDeepCVIRは、与えられたデータセットに対するCVIRタスクにおける従来のマッチング手法よりも優れており、将来の研究のベースラインとしても機能することを示す。
関連論文リスト
- Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network [12.692812966686066]
クロスビュージオローカライゼーションは、地理参照衛星データベースとマッチングすることで、ストリートビュー画像の地理的位置を識別する。
そこで我々は,パノラマBEVコレトリヴァルネットワーク(Panorama-BEV Co-Retrieval Network)という,クロスビュー画像のジオローカライズのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-10T08:03:58Z) - Zero-Shot Composed Image Retrieval with Textual Inversion [28.513594970580396]
Composed Image Retrieval (CIR) は、参照画像と相対キャプションからなるクエリに基づいてターゲット画像を取得することを目的としている。
ラベル付きトレーニングデータセットを必要とせずにCIRに対処することを目的とした新しいタスクZero-Shot CIR(ZS-CIR)を提案する。
論文 参考訳(メタデータ) (2023-03-27T14:31:25Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z) - AiRound and CV-BrCT: Novel Multi-View Datasets for Scene Classification [2.931113769364182]
本稿では,thedatasetand CV-BrCTという2つの新しいデータセットを提案する。
1つ目は、世界中の様々な場所から抽出された視点の異なる、同じ地理的座標からの3つの画像を含む。
第2のデータセットには、ブラジル南東部から抽出された空中画像とストリートレベルの画像が含まれている。
論文 参考訳(メタデータ) (2020-08-03T18:55:46Z) - Semantically Tied Paired Cycle Consistency for Any-Shot Sketch-based
Image Retrieval [55.29233996427243]
ローショットスケッチに基づく画像検索はコンピュータビジョンの新たな課題である。
本稿では,ゼロショットおよび少数ショットのスケッチベース画像検索(SBIR)タスクについて述べる。
これらの課題を解決するために,SEM-PCYC(SEM-PCYC)を提案する。
以上の結果から,Sketchy,TU-Berlin,QuickDrawのデータセットを拡張したバージョンでは,最先端の撮影性能が大幅に向上した。
論文 参考訳(メタデータ) (2020-06-20T22:43:53Z) - Evaluation of Cross-View Matching to Improve Ground Vehicle Localization
with Aerial Perception [17.349420462716886]
クロスビューマッチング(クロスビューマッチング、cross-view matching)とは、あるクエリーグラウンドビュー画像の最も近いマッチングを、航空画像のデータベースから検索する問題を指す。
本稿では,より長い軌道上での地上車両の位置決め作業に対するクロスビューマッチングの評価を行う。
論文 参考訳(メタデータ) (2020-03-13T23:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。