論文の概要: Hierarchical Matching and Reasoning for Multi-Query Image Retrieval
- arxiv url: http://arxiv.org/abs/2306.14460v1
- Date: Mon, 26 Jun 2023 07:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 14:45:52.716344
- Title: Hierarchical Matching and Reasoning for Multi-Query Image Retrieval
- Title(参考訳): マルチクエリ画像検索のための階層マッチングと推論
- Authors: Zhong Ji, Zhihao Li, Yan Zhang, Haoran Wang, Yanwei Pang, Xuelong Li
- Abstract要約: マルチクエリ画像検索のための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関をキャプチャする責任を負う。
我々のHMRNは最先端の手法を大幅に上回っている。
- 参考スコア(独自算出の注目度): 113.44470784756308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a promising field, Multi-Query Image Retrieval (MQIR) aims at searching
for the semantically relevant image given multiple region-specific text
queries. Existing works mainly focus on a single-level similarity between image
regions and text queries, which neglects the hierarchical guidance of
multi-level similarities and results in incomplete alignments. Besides, the
high-level semantic correlations that intrinsically connect different
region-query pairs are rarely considered. To address above limitations, we
propose a novel Hierarchical Matching and Reasoning Network (HMRN) for MQIR. It
disentangles MQIR into three hierarchical semantic representations, which is
responsible to capture fine-grained local details, contextual global scopes,
and high-level inherent correlations. HMRN comprises two modules: Scalar-based
Matching (SM) module and Vector-based Reasoning (VR) module. Specifically, the
SM module characterizes the multi-level alignment similarity, which consists of
a fine-grained local-level similarity and a context-aware global-level
similarity. Afterwards, the VR module is developed to excavate the potential
semantic correlations among multiple region-query pairs, which further explores
the high-level reasoning similarity. Finally, these three-level similarities
are aggregated into a joint similarity space to form the ultimate similarity.
Extensive experiments on the benchmark dataset demonstrate that our HMRN
substantially surpasses the current state-of-the-art methods. For instance,
compared with the existing best method Drill-down, the metric R@1 in the last
round is improved by 23.4%. Our source codes will be released at
https://github.com/LZH-053/HMRN.
- Abstract(参考訳): 有望なフィールドとして、Multi-Query Image Retrieval (MQIR) は、複数の領域固有のテキストクエリが与えられた意味的に関連のあるイメージを探すことを目的としている。
既存の作品は、画像領域とテキストクエリの単一レベルの類似性を重視しており、マルチレベル類似性の階層的ガイダンスを無視し、不完全なアライメントを実現している。
さらに、本質的に異なる領域-クエリペアを接続する高レベルなセマンティックな相関はめったに考慮されない。
上記の制約に対処するため,MQIRのための階層マッチング・推論ネットワーク(HMRN)を提案する。
MQIRを3つの階層的なセマンティック表現に分解し、きめ細かい局所的な詳細、文脈的グローバルスコープ、高レベルの固有の相関を捉える。
HMRNは2つのモジュールからなる: Scalar-based Matching (SM)モジュールとVector-based Reasoning (VR)モジュール。
具体的には、SMモジュールは、微粒な局所レベル類似性とコンテキスト対応のグローバルレベル類似性からなるマルチレベルアライメント類似性を特徴付ける。
その後、複数の領域クエリペア間の潜在的な意味相関を掘り下げるために、vrモジュールが開発され、ハイレベルな推論の類似性をさらに探求する。
最後に、これらの3レベル類似性は、究極の類似性を形成するために結合類似性空間に集約される。
ベンチマークデータセットの大規模な実験は、HMRNが現在の最先端の手法を大幅に上回っていることを示している。
例えば、既存の最良のドリルダウンと比較すると、前ラウンドのメートル法r@1は23.4%改善されている。
ソースコードはhttps://github.com/LZH-053/HMRNで公開されます。
関連論文リスト
- MGMapNet: Multi-Granularity Representation Learning for End-to-End Vectorized HD Map Construction [75.93907511203317]
多粒性表現を持つ地図要素をモデル化するためのMGMapNet(Multi-Granularity Map Network)を提案する。
提案したMGMapNetは最先端のパフォーマンスを達成し,MapTRv2 を nuScenes で 5.3 mAP,Argoverse2 で 4.4 mAP で上回った。
論文 参考訳(メタデータ) (2024-10-10T09:05:23Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Image-to-Image Matching via Foundation Models: A New Perspective for Open-Vocabulary Semantic Segmentation [36.992698016947486]
Open-vocabulary semantic segmentation (OVS)は、クラスラベルやキャプションによって指定された任意のカテゴリのイメージをセグメンテーションすることを目的としている。
過去のベストパフォーマンス手法は画像特徴とカテゴリラベルの誤一致に悩まされていた。
視覚基盤モデルに基づくOVSのための新しい関係認識型モーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-30T06:29:59Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Multi-similarity based Hyperrelation Network for few-shot segmentation [2.306100133614193]
ほとんどショットのセマンティックセグメンテーションは、見知らぬカテゴリのオブジェクト領域を、いくつかの例で認識することを目的としている。
本稿では,MSHNet(Multi-similarity Hyperrelation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-17T18:16:52Z) - Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation
Operation for Semantic Segmentation [44.792859259093085]
本研究の目的は,隣接する高次特徴写像からの補的コンテキストを,クロススケールなピクセル・ツー・リージョン操作で集約することである。
マルチスケール特徴量を得るために,効率的な特徴ピラミッドネットワークを用いる。
実験の結果,RSPヘッドはセマンティックセグメンテーションとパノプティクスセグメンテーションの両方で高い効率で競争力を発揮することがわかった。
論文 参考訳(メタデータ) (2021-06-03T10:49:48Z) - Associating Multi-Scale Receptive Fields for Fine-grained Recognition [5.079292308180334]
マルチスケールの受容場を2つの操作で関連付けるために,新しい多層非局所(CNL)モジュールを提案する。
CNLはクエリ層とすべてのレスポンス層の間の相関を計算する。
モデルでは,多層層間の空間的依存関係を構築し,より識別的な特徴を学習する。
論文 参考訳(メタデータ) (2020-05-19T01:16:31Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。