論文の概要: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features
- arxiv url: http://arxiv.org/abs/2108.02927v1
- Date: Fri, 6 Aug 2021 03:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:35:14.164195
- Title: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features
- Title(参考訳): DOLG:局所的特徴とグローバル的特徴の深い直交融合による単段階画像検索
- Authors: Min Yang, Dongliang He, Miao Fan, Baorong Shi, Xuetong Xue, Fu Li,
Errui Ding, Jizhou Huang
- Abstract要約: エンドツーエンドの画像検索のための情報融合フレームワークとして,Deep Orthogonal Local and Global (DOLG)を提案する。
マルチアトラスな畳み込みと自己注意によって、代表的ローカル情報を注意深く抽出する。
フレームワーク全体がエンドツーエンドの差別化が可能で、イメージレベルのラベルでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 42.62089148690047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Retrieval is a fundamental task of obtaining images similar to the
query one from a database. A common image retrieval practice is to firstly
retrieve candidate images via similarity search using global image features and
then re-rank the candidates by leveraging their local features. Previous
learning-based studies mainly focus on either global or local image
representation learning to tackle the retrieval task. In this paper, we abandon
the two-stage paradigm and seek to design an effective single-stage solution by
integrating local and global information inside images into compact image
representations. Specifically, we propose a Deep Orthogonal Local and Global
(DOLG) information fusion framework for end-to-end image retrieval. It
attentively extracts representative local information with multi-atrous
convolutions and self-attention at first. Components orthogonal to the global
image representation are then extracted from the local information. At last,
the orthogonal components are concatenated with the global representation as a
complementary, and then aggregation is performed to generate the final
representation. The whole framework is end-to-end differentiable and can be
trained with image-level labels. Extensive experimental results validate the
effectiveness of our solution and show that our model achieves state-of-the-art
image retrieval performances on Revisited Oxford and Paris datasets.
- Abstract(参考訳): Image Retrievalは、データベースからクエリに似たイメージを取得するための基本的なタスクである。
一般的な画像検索手法は、まず、グローバルな画像特徴を用いた類似性検索により候補画像を検索し、その局所的特徴を活用して候補を再ランクする。
従来の学習に基づく研究は主に、検索課題に取り組むためのグローバルまたはローカルな画像表現学習に焦点を当てていた。
本稿では,2段階のパラダイムを捨て,画像内の局所的・大域的情報をコンパクトな画像表現に統合することにより,効果的な単一ステージソリューションの設計を目指す。
具体的には,エンド・ツー・エンド画像検索のための深層直交局所およびグローバル情報融合フレームワークを提案する。
マルチアトラスな畳み込みと自己注意で代表的ローカル情報を注意深く抽出する。
次に、グローバル画像表現と直交するコンポーネントをローカル情報から抽出する。
最終的に直交成分は、大域表現と相補表現として連結され、次に最終的な表現を生成するために集約が行われる。
フレームワーク全体はエンドツーエンドの微分可能で、イメージレベルのラベルでトレーニングすることができる。
提案手法の有効性を検証し,再訪したオックスフォードおよびパリのデータセットにおいて,最先端の画像検索性能を実現することを実証した。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - PRIOR: Prototype Representation Joint Learning from Medical Images and
Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。
標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。
低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文 参考訳(メタデータ) (2023-07-24T07:49:01Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - Unifying Deep Local and Global Features for Image Search [9.614694312155798]
グローバルおよびローカルな画像特徴を1つのディープモデルに統一し、効率的な特徴抽出による正確な検索を可能にする。
我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
論文 参考訳(メタデータ) (2020-01-14T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。