論文の概要: Global Features are All You Need for Image Retrieval and Reranking
- arxiv url: http://arxiv.org/abs/2308.06954v1
- Date: Mon, 14 Aug 2023 06:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 14:15:54.674029
- Title: Global Features are All You Need for Image Retrieval and Reranking
- Title(参考訳): 画像検索とリグレードに必要なのは、グローバルな機能
- Authors: Shihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, Andre Araujo,
and Bingyi Cao
- Abstract要約: 本稿では,グローバルな特徴を活かした画像検索のパラダイムを提案し,高精度で軽量な画像検索を実現する。
既にトレーニング済みのモデルに簡単に統合できるいくつかのプラグインモジュールで構成されている。
実験では、単段階の結果は8.2%改善され、2段階のバージョンは7568倍のスピードアップで3.7%向上した。
- 参考スコア(独自算出の注目度): 2.6198864241281434
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Utilizing a two-stage paradigm comprising of coarse image retrieval and
precise reranking, a well-established image retrieval system is formed. It has
been widely accepted for long time that local feature is imperative to the
subsequent stage - reranking, but this requires sizeable storage and computing
capacities. We, for the first time, propose an image retrieval paradigm
leveraging global feature only to enable accurate and lightweight image
retrieval for both coarse retrieval and reranking, thus the name - SuperGlobal.
It consists of several plug-in modules that can be easily integrated into an
already trained model, for both coarse retrieval and reranking stage. This
series of approaches is inspired by the investigation into Generalized Mean
(GeM) Pooling. Possessing these tools, we strive to defy the notion that local
feature is essential for a high-performance image retrieval paradigm. Extensive
experiments demonstrate substantial improvements compared to the state of the
art in standard benchmarks. Notably, on the Revisited Oxford (ROxford)+1M Hard
dataset, our single-stage results improve by 8.2% absolute, while our two-stage
version gain reaches 3.7% with a strong 7568X speedup. Furthermore, when the
full SuperGlobal is compared with the current single-stage state-of-the-art
method, we achieve roughly 17% improvement with a minimal 0.005% time overhead.
Code: https://github.com/ShihaoShao-GH/SuperGlobal.
- Abstract(参考訳): 粗い画像検索と精密な再ランクからなる2段階のパラダイムを利用して、確立された画像検索システムを形成する。
ローカル機能は次のステージ – 再ランキング – に必須であることは、長い間広く受け入れられてきましたが、これにはサイズ可能なストレージと計算能力が必要です。
我々は,まず,大域的特徴を活用した画像検索パラダイムを提案し,粗い検索と再ランク付けの両方において,正確かつ軽量な画像検索を可能にする。
すでにトレーニング済みのモデルに簡単に統合できるプラグインモジュールがいくつかあり、粗い検索と再ランクステージの両方に対応している。
この一連のアプローチは、一般化平均 (GeM) プールの研究にインスパイアされている。
これらのツールを評価することで,局所的な特徴が高速な画像検索パラダイムに不可欠であるという考えを否定しようと努力する。
広範な実験は、標準ベンチマークの最先端と比べて大幅に改善されている。
特に、Revisited Oxford (ROxford)+1M Hardデータセットでは、単一のステージの結果が8.2%向上し、2ステージのバージョンは7568倍のスピードアップで3.7%向上しました。
さらに,全スーパーグローバルを現行のsingle-stage state-of-the-art法と比較すると,0.005%のオーバーヘッドで約17%改善できた。
コード:https://github.com/ShihaoShao-GH/SuperGlobal。
関連論文リスト
- Global Structure-from-Motion Revisited [57.30100303979393]
我々は,グローバルSfMにおける技術状況より優れた新しい汎用システムとして,GLOMAPを提案する。
精度とロバスト性の観点からは、最も広く使われている増分SfMであるCOLMAPよりも高い結果が得られる。
当社のシステムはオープンソース実装として共有しています。
論文 参考訳(メタデータ) (2024-07-29T17:54:24Z) - Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。
我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文 参考訳(メタデータ) (2024-07-18T10:26:53Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Cross-modal Local Shortest Path and Global Enhancement for
Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。
2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T10:27:22Z) - Revisiting Global Statistics Aggregation for Improving Image Restoration [8.803962179239385]
テスト時間局所統計変換器(TLSC)は画像復元器の性能を大幅に向上させる。
SEをTLSCに拡張することで、GoProデータセット上のPSNRにおいて、MPRNetは0.65dB、33.31dB、前回の0.6dBを超えている。
論文 参考訳(メタデータ) (2021-12-08T12:52:14Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - CooGAN: A Memory-Efficient Framework for High-Resolution Facial
Attribute Editing [84.92009553462384]
HR顔画像編集のためのNOVEL画素変換フレームワークCooperative GAN(CooGAN)を提案する。
このフレームワークは、きめ細かい局所的な顔パッチ生成のためのローカルパス(パッチレベルHR、ローメモリ)と、グローバル低解像度(LR)顔構造監視のためのグローバルパス(画像レベルLR、ローメモリ)を備えている。
さらに,より効率的なマルチスケール機能融合のための軽量な選択転写ユニットを提案する。
論文 参考訳(メタデータ) (2020-11-03T08:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。