論文の概要: Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing
- arxiv url: http://arxiv.org/abs/2201.08125v1
- Date: Thu, 20 Jan 2022 12:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 19:03:49.166118
- Title: Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing
- Title(参考訳): リモートセンシングにおける大規模クロスモーダルテキスト画像検索のための深い教師なしコントラストハッシュ
- Authors: Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg\"um Demir
- Abstract要約: 本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
- 参考スコア(独自算出の注目度): 1.6758573326215689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the availability of large-scale multi-modal data (e.g., satellite
images acquired by different sensors, text sentences, etc) archives, the
development of cross-modal retrieval systems that can search and retrieve
semantically relevant data across different modalities based on a query in any
modality has attracted great attention in RS. In this paper, we focus our
attention on cross-modal text-image retrieval, where queries from one modality
(e.g., text) can be matched to archive entries from another (e.g., image). Most
of the existing cross-modal text-image retrieval systems require a high number
of labeled training samples and also do not allow fast and memory-efficient
retrieval due to their intrinsic characteristics. These issues limit the
applicability of the existing cross-modal retrieval systems for large-scale
applications in RS. To address this problem, in this paper we introduce a novel
deep unsupervised cross-modal contrastive hashing (DUCH) method for RS
text-image retrieval. The proposed DUCH is made up of two main modules: 1)
feature extraction module (which extracts deep representations of the
text-image modalities); and 2) hashing module (which learns to generate
cross-modal binary hash codes from the extracted representations). Within the
hashing module, we introduce a novel multi-objective loss function including:
i) contrastive objectives that enable similarity preservation in both intra-
and inter-modal similarities; ii) an adversarial objective that is enforced
across two modalities for cross-modal representation consistency; iii)
binarization objectives for generating representative hash codes. Experimental
results show that the proposed DUCH outperforms state-of-the-art unsupervised
cross-modal hashing methods on two multi-modal (image and text) benchmark
archives in RS. Our code is publicly available at
https://git.tu-berlin.de/rsim/duch.
- Abstract(参考訳): 大規模マルチモーダルデータ(例えば、異なるセンサやテキストによって取得された衛星画像など)のアーカイブが利用可能であることから、任意のモーダル性におけるクエリに基づいて、異なるモーダルにまたがる意味的関連データを検索し検索するクロスモーダル検索システムの開発がrsで注目されている。
本稿では,あるモダリティ(例えばテキスト)からのクエリを,別のモダリティ(例えば画像)からのアーカイブエントリとマッチングできるクロスモーダルなテキスト画像検索に注目する。
既存のクロスモーダルテキスト画像検索システムの多くは、ラベル付きトレーニングサンプルを多用しており、本質的な特徴から高速かつメモリ効率の高い検索を許さない。
これらの問題は、rsにおける大規模アプリケーションに対する既存のクロスモーダル検索システムの適用性を制限している。
そこで,本稿では,rsテキスト画像検索のためのduch(deep unsupervised cross-modal contrastive hashing)方式を提案する。
提案したDUCHは2つの主モジュールから構成されている。
1)特徴抽出モジュール(テキスト画像モダリティの深い表現を抽出する)、および
2)ハッシュモジュール(抽出された表現からクロスモーダルバイナリハッシュコードを生成することを学ぶ)。
ハッシュモジュール内では、以下を含む新しい多目的損失関数を導入する。
一 モダリティ内及びモダリティ間における類似性保存を可能にする対比目的
二 相互表現の整合性のために二つのモダリティにまたがって施行される敵意
三 代表ハッシュコードを生成するための二元化目的
実験の結果,提案するDUCHは,RSの2つのマルチモーダル(画像とテキスト)ベンチマークアーカイブ上で,最先端の教師なしのクロスモーダルハッシュ法より優れていた。
私たちのコードはhttps://git.tu-berlin.de/rsim/duchで公開しています。
関連論文リスト
- ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - EDIS: Entity-Driven Image Search over Multimodal Web Content [95.40238328527931]
textbfEntity-textbfDriven textbfImage textbfSearch (EDIS)は、ニュース領域におけるクロスモーダル画像検索のためのデータセットである。
EDISは、実際の検索エンジンの結果から100万のWebイメージとキュレートされたデータセットで構成され、各イメージはテキスト記述と組み合わせられている。
論文 参考訳(メタデータ) (2023-05-23T02:59:19Z) - Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文 参考訳(メタデータ) (2022-04-21T03:53:19Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - An Unsupervised Cross-Modal Hashing Method Robust to Noisy Training
Image-Text Correspondences in Remote Sensing [1.6758573326215689]
リモートセンシングにおいて,モーダル画像テキスト検索手法が注目されている。
既存の手法の多くは、正確に一致したテキストイメージ対を持つ信頼性の高いマルチモーダルトレーニングセットが存在すると仮定している。
ノイズの多い画像テキスト対応(CHNR)に頑健な新しい教師なしクロスモーダルハッシュ法を提案する。
実験の結果,CHNRは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-02-26T11:22:24Z) - Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization [5.799838997511804]
クロスモーダル検索は、異なるコンテンツモダリティにまたがる類似の意味を持つデータを検索することを目的としている。
クロスモーダル検索のための共同学習型ディープハッシュ・量子化ネットワーク(HQ)を提案する。
NUS-WIDE、MIR-Flickr、Amazonデータセットの実験結果は、HQの精度が7%以上向上していることを示している。
論文 参考訳(メタデータ) (2022-02-15T22:00:04Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。