論文の概要: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features
- arxiv url: http://arxiv.org/abs/2108.02927v1
- Date: Fri, 6 Aug 2021 03:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:35:14.164195
- Title: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features
- Title(参考訳): DOLG:局所的特徴とグローバル的特徴の深い直交融合による単段階画像検索
- Authors: Min Yang, Dongliang He, Miao Fan, Baorong Shi, Xuetong Xue, Fu Li,
Errui Ding, Jizhou Huang
- Abstract要約: エンドツーエンドの画像検索のための情報融合フレームワークとして,Deep Orthogonal Local and Global (DOLG)を提案する。
マルチアトラスな畳み込みと自己注意によって、代表的ローカル情報を注意深く抽出する。
フレームワーク全体がエンドツーエンドの差別化が可能で、イメージレベルのラベルでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 42.62089148690047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Retrieval is a fundamental task of obtaining images similar to the
query one from a database. A common image retrieval practice is to firstly
retrieve candidate images via similarity search using global image features and
then re-rank the candidates by leveraging their local features. Previous
learning-based studies mainly focus on either global or local image
representation learning to tackle the retrieval task. In this paper, we abandon
the two-stage paradigm and seek to design an effective single-stage solution by
integrating local and global information inside images into compact image
representations. Specifically, we propose a Deep Orthogonal Local and Global
(DOLG) information fusion framework for end-to-end image retrieval. It
attentively extracts representative local information with multi-atrous
convolutions and self-attention at first. Components orthogonal to the global
image representation are then extracted from the local information. At last,
the orthogonal components are concatenated with the global representation as a
complementary, and then aggregation is performed to generate the final
representation. The whole framework is end-to-end differentiable and can be
trained with image-level labels. Extensive experimental results validate the
effectiveness of our solution and show that our model achieves state-of-the-art
image retrieval performances on Revisited Oxford and Paris datasets.
- Abstract(参考訳): Image Retrievalは、データベースからクエリに似たイメージを取得するための基本的なタスクである。
一般的な画像検索手法は、まず、グローバルな画像特徴を用いた類似性検索により候補画像を検索し、その局所的特徴を活用して候補を再ランクする。
従来の学習に基づく研究は主に、検索課題に取り組むためのグローバルまたはローカルな画像表現学習に焦点を当てていた。
本稿では,2段階のパラダイムを捨て,画像内の局所的・大域的情報をコンパクトな画像表現に統合することにより,効果的な単一ステージソリューションの設計を目指す。
具体的には,エンド・ツー・エンド画像検索のための深層直交局所およびグローバル情報融合フレームワークを提案する。
マルチアトラスな畳み込みと自己注意で代表的ローカル情報を注意深く抽出する。
次に、グローバル画像表現と直交するコンポーネントをローカル情報から抽出する。
最終的に直交成分は、大域表現と相補表現として連結され、次に最終的な表現を生成するために集約が行われる。
フレームワーク全体はエンドツーエンドの微分可能で、イメージレベルのラベルでトレーニングすることができる。
提案手法の有効性を検証し,再訪したオックスフォードおよびパリのデータセットにおいて,最先端の画像検索性能を実現することを実証した。
関連論文リスト
- Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - 3rd Place: A Global and Local Dual Retrieval Solution to Facebook AI
Image Similarity Challenge [2.4340897078287815]
本稿では、Facebook AIによって組織された画像類似度チャレンジ(ISC)2021のマッチングトラックに対する3番目のソリューションを提案する。
本稿では,グローバルな記述子とローカルな記述子を組み合わせたマルチブランチ検索手法を提案する。
本稿では,グローバルな特徴と局所的な特徴の相補的な優位性を示すアブレーション実験について述べる。
論文 参考訳(メタデータ) (2021-12-04T16:25:24Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Unifying Deep Local and Global Features for Image Search [9.614694312155798]
グローバルおよびローカルな画像特徴を1つのディープモデルに統一し、効率的な特徴抽出による正確な検索を可能にする。
我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
論文 参考訳(メタデータ) (2020-01-14T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。