論文の概要: Instance-level Image Retrieval using Reranking Transformers
- arxiv url: http://arxiv.org/abs/2103.12236v1
- Date: Mon, 22 Mar 2021 23:58:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 03:15:34.557662
- Title: Instance-level Image Retrieval using Reranking Transformers
- Title(参考訳): 転位変換器を用いたインスタンスレベル画像検索
- Authors: Fuwen Tan, Jiangbo Yuan, Vicente Ordonez
- Abstract要約: インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトに一致する画像の大規模なデータベースで検索するタスクです。
RRT(Reranking Transformers)を一般的なモデルとして提案し、ローカル機能とグローバル機能の両方を組み込んでマッチングイメージをランク付けします。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
- 参考スコア(独自算出の注目度): 18.304597755595697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instance-level image retrieval is the task of searching in a large database
for images that match an object in a query image. To address this task, systems
usually rely on a retrieval step that uses global image descriptors, and a
subsequent step that performs domain-specific refinements or reranking by
leveraging operations such as geometric verification based on local features.
In this work, we propose Reranking Transformers (RRTs) as a general model to
incorporate both local and global features to rerank the matching images in a
supervised fashion and thus replace the relatively expensive process of
geometric verification. RRTs are lightweight and can be easily parallelized so
that reranking a set of top matching results can be performed in a single
forward-pass. We perform extensive experiments on the Revisited Oxford and
Paris datasets, and the Google Landmark v2 dataset, showing that RRTs
outperform previous reranking approaches while using much fewer local
descriptors. Moreover, we demonstrate that, unlike existing approaches, RRTs
can be optimized jointly with the feature extractor, which can lead to feature
representations tailored to downstream tasks and further accuracy improvements.
Training code and pretrained models will be made public.
- Abstract(参考訳): インスタンスレベルの画像検索は、クエリイメージ内のオブジェクトにマッチする画像の大規模なデータベースで検索するタスクである。
この課題に対処するために、システムは通常、グローバルイメージ記述子を使用する検索ステップと、局所的な特徴に基づく幾何検証のような操作を利用して、ドメイン固有の改良や再ランキングを実行するステップに依存する。
本研究では,RRTを局所的特徴とグローバル的特徴を組み込んだ一般モデルとして提案し,マッチング画像を教師付き方式で再現し,比較的高価な幾何検証プロセスを置き換えることを提案する。
RRTは軽量であり、一組のトップマッチング結果の再ランク付けを単一のフォワードパスで行えるように容易に並列化できる。
我々は、Revisited OxfordとParisのデータセットとGoogle Landmark v2のデータセットに関する広範な実験を行い、RTRがより少ないローカル記述子を使用しながら、以前のリグレードアプローチより優れていることを示した。
さらに,既存手法と異なり,RTRは特徴抽出器と共同で最適化され,下流タスクに適した特徴表現とさらなる精度の向上が期待できることを示した。
トレーニングコードと事前訓練されたモデルは公開されます。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Graph Convolution Based Efficient Re-Ranking for Visual Retrieval [29.804582207550478]
特徴を更新することで、初期検索結果を洗練する効率的な再ランク付け手法を提案する。
具体的には、グラフ畳み込みネットワーク(GCN)に基づく再ランク付けを再構成し、特徴伝搬による視覚的検索タスクのための新しいグラフ畳み込みベース再ランク付け(GCR)を提案する。
特に、平面GCRは、クロスカメラ検索のために拡張され、異なるカメラ間の親和性関係を活用するために、改良された特徴伝搬定式化が提示される。
論文 参考訳(メタデータ) (2023-06-15T00:28:08Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - $R^{2}$Former: Unified $R$etrieval and $R$eranking Transformer for Place
Recognition [92.56937383283397]
検索と再ランクの両方を扱う統合された場所認識フレームワークを提案する。
提案モジュールは特徴相関,注目値,xy座標を考慮に入れている。
R2$Formerは、主要なVPRデータセットの最先端メソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-04-06T23:19:32Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - SImProv: Scalable Image Provenance Framework for Robust Content
Attribution [80.25476792081403]
我々は、クエリ画像を元の信頼できるデータベースにマッチングするフレームワークであるSImProvを提示する。
SimProvは3つのステージで構成されている。トップkの最も類似した画像を検索するためのスケーラブルな検索ステージと、候補の中からオリジナルを識別するための再ランク付けとほぼ重複した検出ステージである。
1億画像のデータセット上での効率的な検索と操作の検出を実証する。
論文 参考訳(メタデータ) (2022-06-28T18:42:36Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - Reuse your features: unifying retrieval and feature-metric alignment [3.845387441054033]
DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のネットワークである。
公開ベンチマークの挑戦的な条件下では、堅牢性と正確性の観点から競争性能を達成する。
論文 参考訳(メタデータ) (2022-04-13T10:42:00Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - LoFTR: Detector-Free Local Feature Matching with Transformers [40.754990768677295]
画像の特徴の検出,記述,マッチングを逐次行う代わりに,まず,粗いレベルで画素単位の密マッチングを確立することを提案する。
文の検索にコストボリュームを用いる高密度な手法とは対照的に,トランスフォーマーの自己と横断的な注意層を用いて,両画像に条件付けされた特徴記述子を得る。
屋内および屋外のデータセットの実験は、LoFTRが最先端の手法を大きなマージンで上回っていることを示しています。
論文 参考訳(メタデータ) (2021-04-01T17:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。