Fugu-MT 論文翻訳(概要): Global Features are All You Need for Image Retrieval and Reranking

論文の概要: Global Features are All You Need for Image Retrieval and Reranking

arxiv url: http://arxiv.org/abs/2308.06954v2
Date: Sat, 19 Aug 2023 06:15:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 20:29:42.446272
Title: Global Features are All You Need for Image Retrieval and Reranking
Title（参考訳）: 画像検索とリグレードに必要なのは、グローバルな機能
Authors: Shihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, Andre Araujo, and Bingyi Cao
Abstract要約: SuperGlobalは、両方のステージにグローバル機能のみを取り入れ、精度を犠牲にすることなく効率を向上する、新しいアプローチである。我々の実験は、標準ベンチマークの最先端技術と比較して大幅に改善されている。我々の2段階システムは、現在の単一ステージの状態を16.3%超え、高性能画像検索システムに対するスケーラブルで正確な代替手段を提供する。
参考スコア（独自算出の注目度）: 2.6198864241281434
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Image retrieval systems conventionally use a two-stage paradigm, leveraging global features for initial retrieval and local features for reranking. However, the scalability of this method is often limited due to the significant storage and computation cost incurred by local feature matching in the reranking stage. In this paper, we present SuperGlobal, a novel approach that exclusively employs global features for both stages, improving efficiency without sacrificing accuracy. SuperGlobal introduces key enhancements to the retrieval system, specifically focusing on the global feature extraction and reranking processes. For extraction, we identify sub-optimal performance when the widely-used ArcFace loss and Generalized Mean (GeM) pooling methods are combined and propose several new modules to improve GeM pooling. In the reranking stage, we introduce a novel method to update the global features of the query and top-ranked images by only considering feature refinement with a small set of images, thus being very compute and memory efficient. Our experiments demonstrate substantial improvements compared to the state of the art in standard benchmarks. Notably, on the Revisited Oxford+1M Hard dataset, our single-stage results improve by 7.1%, while our two-stage gain reaches 3.7% with a strong 64,865x speedup. Our two-stage system surpasses the current single-stage state-of-the-art by 16.3%, offering a scalable, accurate alternative for high-performing image retrieval systems with minimal time overhead. Code: https://github.com/ShihaoShao-GH/SuperGlobal.
Abstract（参考訳）: 画像検索システムは従来の2段階のパラダイムを使用しており、グローバル機能を初期検索に活用し、局所的な特徴を再分類する。しかし, この手法のスケーラビリティは, 再配置段階における局所的特徴マッチングによって生じる大きなストレージと計算コストによって制限されることが多い。本稿では,グローバルな特徴を両段階に限定して活用し,精度を犠牲にすることなく効率を向上させる手法であるSuperGlobalを提案する。 SuperGlobalは検索システムに重要な拡張を導入し、特にグローバルな特徴抽出と再ランクプロセスに焦点を当てている。抽出のために,広く使用されているArcFace損失と一般平均プール法を組み合わせた場合の準最適性能を特定し,GeMプーリングを改善するためにいくつかの新しいモジュールを提案する。再ランキングの段階では,クエリとトップランク画像の全体的特徴を,少数の画像による機能改良のみを考慮して更新する新しい手法を導入することにより,非常に計算効率とメモリ効率が向上する。我々の実験は、標準ベンチマークの最先端技術と比較して大幅に改善されている。特に、Revisited Oxford+1M Hardデータセットでは、単一のステージの結果が7.1%向上し、2ステージのアップは64,865倍のスピードアップで3.7%に達した。我々の2段階システムは、現在の単一ステージの状態を16.3%超え、最小時間オーバーヘッドで高性能画像検索システムにスケーラブルで正確な代替手段を提供する。コード:https://github.com/ShihaoShao-GH/SuperGlobal。

関連論文リスト

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文参考訳（メタデータ） (2025-04-19T09:54:46Z)
Search is All You Need for Few-shot Anomaly Detection [39.737510049667556]
産業検査において, FSAD (Few-shot Anomaly Detection) が重要な課題となっている。本稿では,最も近い検索フレームワークが,単一クラスとマルチクラスの両方のFSADシナリオにおいて,最先端の性能を上回ることができることを示す。画像レベルのAUROCスコアは97.4%,94.8%,70.8%であった。
論文参考訳（メタデータ） (2025-04-16T09:21:34Z)
Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。 BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文参考訳（メタデータ） (2025-03-11T11:13:10Z)
Global Structure-from-Motion Revisited [57.30100303979393]
我々は,グローバルSfMにおける技術状況より優れた新しい汎用システムとして,GLOMAPを提案する。精度とロバスト性の観点からは、最も広く使われている増分SfMであるCOLMAPよりも高い結果が得られる。当社のシステムはオープンソース実装として共有しています。
論文参考訳（メタデータ） (2024-07-29T17:54:24Z)
Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文参考訳（メタデータ） (2024-07-18T10:26:53Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文参考訳（メタデータ） (2023-08-08T03:06:10Z)
Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文参考訳（メタデータ） (2023-03-11T10:44:44Z)
Cross-modal Local Shortest Path and Global Enhancement for Visible-Thermal Person Re-Identification [2.294635424666456]
本稿では,局所的特徴とグローバル的特徴の同時学習に基づく2ストリームネットワークであるCM-LSP-GE(Cross-modal Local Shortest Path and Global Enhancement)モジュールを提案する。 2つの典型的なデータセットの実験結果は、我々のモデルは明らかに最先端の手法よりも優れていることを示している。
論文参考訳（メタデータ） (2022-06-09T10:27:22Z)
Revisiting Global Statistics Aggregation for Improving Image Restoration [8.803962179239385]
テスト時間局所統計変換器(TLSC)は画像復元器の性能を大幅に向上させる。 SEをTLSCに拡張することで、GoProデータセット上のPSNRにおいて、MPRNetは0.65dB、33.31dB、前回の0.6dBを超えている。
論文参考訳（メタデータ） (2021-12-08T12:52:14Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)
CooGAN: A Memory-Efficient Framework for High-Resolution Facial Attribute Editing [84.92009553462384]
HR顔画像編集のためのNOVEL画素変換フレームワークCooperative GAN(CooGAN)を提案する。このフレームワークは、きめ細かい局所的な顔パッチ生成のためのローカルパス(パッチレベルHR、ローメモリ)と、グローバル低解像度(LR)顔構造監視のためのグローバルパス(画像レベルLR、ローメモリ)を備えている。さらに,より効率的なマルチスケール機能融合のための軽量な選択転写ユニットを提案する。
論文参考訳（メタデータ） (2020-11-03T08:40:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。