Fugu-MT 論文翻訳(概要): DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features

論文の概要: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features

arxiv url: http://arxiv.org/abs/2108.02927v1
Date: Fri, 6 Aug 2021 03:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-09 14:35:14.164195
Title: DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features
Title（参考訳）: DOLG:局所的特徴とグローバル的特徴の深い直交融合による単段階画像検索
Authors: Min Yang, Dongliang He, Miao Fan, Baorong Shi, Xuetong Xue, Fu Li, Errui Ding, Jizhou Huang
Abstract要約: エンドツーエンドの画像検索のための情報融合フレームワークとして,Deep Orthogonal Local and Global (DOLG)を提案する。マルチアトラスな畳み込みと自己注意によって、代表的ローカル情報を注意深く抽出する。フレームワーク全体がエンドツーエンドの差別化が可能で、イメージレベルのラベルでトレーニングすることができる。
参考スコア（独自算出の注目度）: 42.62089148690047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image Retrieval is a fundamental task of obtaining images similar to the query one from a database. A common image retrieval practice is to firstly retrieve candidate images via similarity search using global image features and then re-rank the candidates by leveraging their local features. Previous learning-based studies mainly focus on either global or local image representation learning to tackle the retrieval task. In this paper, we abandon the two-stage paradigm and seek to design an effective single-stage solution by integrating local and global information inside images into compact image representations. Specifically, we propose a Deep Orthogonal Local and Global (DOLG) information fusion framework for end-to-end image retrieval. It attentively extracts representative local information with multi-atrous convolutions and self-attention at first. Components orthogonal to the global image representation are then extracted from the local information. At last, the orthogonal components are concatenated with the global representation as a complementary, and then aggregation is performed to generate the final representation. The whole framework is end-to-end differentiable and can be trained with image-level labels. Extensive experimental results validate the effectiveness of our solution and show that our model achieves state-of-the-art image retrieval performances on Revisited Oxford and Paris datasets.
Abstract（参考訳）: Image Retrievalは、データベースからクエリに似たイメージを取得するための基本的なタスクである。一般的な画像検索手法は、まず、グローバルな画像特徴を用いた類似性検索により候補画像を検索し、その局所的特徴を活用して候補を再ランクする。従来の学習に基づく研究は主に、検索課題に取り組むためのグローバルまたはローカルな画像表現学習に焦点を当てていた。本稿では,2段階のパラダイムを捨て,画像内の局所的・大域的情報をコンパクトな画像表現に統合することにより,効果的な単一ステージソリューションの設計を目指す。具体的には,エンド・ツー・エンド画像検索のための深層直交局所およびグローバル情報融合フレームワークを提案する。マルチアトラスな畳み込みと自己注意で代表的ローカル情報を注意深く抽出する。次に、グローバル画像表現と直交するコンポーネントをローカル情報から抽出する。最終的に直交成分は、大域表現と相補表現として連結され、次に最終的な表現を生成するために集約が行われる。フレームワーク全体はエンドツーエンドの微分可能で、イメージレベルのラベルでトレーニングすることができる。提案手法の有効性を検証し,再訪したオックスフォードおよびパリのデータセットにおいて,最先端の画像検索性能を実現することを実証した。

関連論文リスト

Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文参考訳（メタデータ） (2024-06-12T17:59:49Z)
mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-28T04:47:44Z)
Coarse-to-Fine: Learning Compact Discriminative Representation for Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文参考訳（メタデータ） (2023-08-08T03:06:10Z)
PRIOR: Prototype Representation Joint Learning from Medical Images and Reports [19.336988866061294]
医用画像とレポートのグローバルなアライメントとローカルなアライメントを組み合わせた表現学習フレームワークを提案する。標準的なグローバルな多モードアライメント手法とは対照的に、細粒度表現に局所アライメントモジュールを用いる。低レベルのローカライズされた視覚的および高レベルの臨床言語的特徴に焦点を合わせることができる文量プロトタイプメモリバンクを構築する。
論文参考訳（メタデータ） (2023-07-24T07:49:01Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Local and Global GANs with Semantic-Aware Upsampling for Image Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文参考訳（メタデータ） (2022-02-28T19:24:25Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。 ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文参考訳（メタデータ） (2020-08-12T04:14:11Z)
Unifying Deep Local and Global Features for Image Search [9.614694312155798]
グローバルおよびローカルな画像特徴を1つのディープモデルに統一し、効率的な特徴抽出による正確な検索を可能にする。我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
論文参考訳（メタデータ） (2020-01-14T19:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。