論文の概要: Unifying Deep Local and Global Features for Image Search
- arxiv url: http://arxiv.org/abs/2001.05027v4
- Date: Tue, 15 Sep 2020 18:21:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 12:51:30.915989
- Title: Unifying Deep Local and Global Features for Image Search
- Title(参考訳): 画像検索のための深部機能とグローバル機能の統合
- Authors: Bingyi Cao, Andre Araujo, Jack Sim
- Abstract要約: グローバルおよびローカルな画像特徴を1つのディープモデルに統一し、効率的な特徴抽出による正確な検索を可能にする。
我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
- 参考スコア(独自算出の注目度): 9.614694312155798
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image retrieval is the problem of searching an image database for items that
are similar to a query image. To address this task, two main types of image
representations have been studied: global and local image features. In this
work, our key contribution is to unify global and local features into a single
deep model, enabling accurate retrieval with efficient feature extraction. We
refer to the new model as DELG, standing for DEep Local and Global features. We
leverage lessons from recent feature learning work and propose a model that
combines generalized mean pooling for global features and attentive selection
for local features. The entire network can be learned end-to-end by carefully
balancing the gradient flow between two heads -- requiring only image-level
labels. We also introduce an autoencoder-based dimensionality reduction
technique for local features, which is integrated into the model, improving
training efficiency and matching performance. Comprehensive experiments show
that our model achieves state-of-the-art image retrieval on the Revisited
Oxford and Paris datasets, and state-of-the-art single-model instance-level
recognition on the Google Landmarks dataset v2. Code and models are available
at https://github.com/tensorflow/models/tree/master/research/delf .
- Abstract(参考訳): 画像検索は、検索画像に類似した項目の画像データベースを検索する問題である。
この課題に対処するため,グローバル画像とローカル画像の2種類の画像表現が研究されている。
本研究では,グローバルな特徴と局所的な特徴を単一のディープモデルに統合し,効率的な特徴抽出による正確な検索を可能にする。
私たちは新しいモデルをDELGと呼び、Dreep LocalとGlobalの機能を表しています。
我々は,最近の機能学習から得た教訓を活用し,グローバル特徴の一般化平均プーリングと局所特徴の注意的選択を組み合わせたモデルを提案する。
ネットワーク全体は、2つのヘッド間の勾配フローを慎重にバランスさせることで、エンドツーエンドで学習することができる。
また、局所特徴量に対するオートエンコーダに基づく次元性低減手法を導入し、モデルに統合し、トレーニング効率とマッチング性能を改善した。
総合的な実験により、我々のモデルは、改訂されたオックスフォードとパリのデータセットにおける最先端の画像検索と、Google Landmarksデータセットv2における最先端の単一モデルインスタンスレベルの認識を実現している。
コードとモデルはhttps://github.com/tensorflow/models/tree/master/research/delfで入手できる。
関連論文リスト
- Siamese Transformer Networks for Few-shot Image Classification [9.55588609556447]
人間は視覚分類タスクにおいて顕著な熟練度を示し、最小限の例で新しい画像を正確に認識し分類する。
既存の少数の画像分類手法は、大域的特徴と局所的特徴の両方を強調し、両者を統合することを考える研究はほとんどない。
我々は,シームズ変圧器ネットワーク(STN)に基づく新しいアプローチを提案する。
我々の戦略は, 複雑な特徴適応モジュールの必要性を回避し, 画像分類におけるグローバルな特徴と局所的な特徴の可能性を効果的に活用する。
論文 参考訳(メタデータ) (2024-07-16T14:27:23Z) - Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Coarse-to-Fine: Learning Compact Discriminative Representation for
Single-Stage Image Retrieval [11.696941841000985]
検索と参照のパラダイムに従う2段階の手法は優れた性能を達成しているが、それぞれのローカルモジュールとグローバルモジュールは現実世界のアプリケーションでは非効率である。
本稿では,重要な局所記述子を注意深く選択し,大域的な表現に微粒な意味関係を注入する機構を提案する。
提案手法は,Revisited OxfordやRevisited Parisなどのベンチマークを用いて,最先端の単一ステージ画像検索性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:06:10Z) - Efficient and Explicit Modelling of Image Hierarchies for Image
Restoration [120.35246456398738]
本研究では,画像復元のためのグローバル,地域,地域領域における画像階層を効率的に,かつ明示的にモデル化する機構を提案する。
そこで本研究では, 空間と時間的複雑性のバランスが良く, 固定されたストライプ自己注意を提案する。
そこで我々はGlobal, Regional, Local Rangeにおける画像階層を明示的にモデル化するGRLと呼ばれる新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:59:29Z) - Deep Learning Model with GA based Feature Selection and Context
Integration [2.3472688456025756]
本稿では,視覚的特徴と並行して,グローバル・ローカル・コンテクスト情報と独立に同化・学習する3層深層学習モデルを提案する。
提案モデルの新規性は,視覚層に遺伝的アルゴリズム(GA)を最適化した特徴を学習するために,1-vs-Allバイナリクラスベースの学習者が導入されたことである。
グローバルおよびローカルなコンテキスト情報を備えた最適化された視覚機能は、精度を改善し、最先端の深層CNNモデルに匹敵する安定した予測を生成するために重要な役割を果たす。
論文 参考訳(メタデータ) (2022-04-13T06:28:41Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Learning Super-Features for Image Retrieval [34.22539650643026]
我々は,スーパーフィーチャーと呼ばれる中級機能のみをベースとした,深層画像検索のための新しいアーキテクチャを提案する。
一般的なランドマーク検索ベンチマークの実験では、Super-featuresは同じ数の機能を使用する場合、最先端の手法よりも大幅に優れていることが検証されている。
論文 参考訳(メタデータ) (2022-01-31T12:48:42Z) - DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local
and Global Features [42.62089148690047]
エンドツーエンドの画像検索のための情報融合フレームワークとして,Deep Orthogonal Local and Global (DOLG)を提案する。
マルチアトラスな畳み込みと自己注意によって、代表的ローカル情報を注意深く抽出する。
フレームワーク全体がエンドツーエンドの差別化が可能で、イメージレベルのラベルでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-08-06T03:14:09Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。