論文の概要: Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization
- arxiv url: http://arxiv.org/abs/2202.10232v1
- Date: Tue, 15 Feb 2022 22:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-27 17:44:25.157864
- Title: Efficient Cross-Modal Retrieval via Deep Binary Hashing and Quantization
- Title(参考訳): ディープバイナリハッシュと量子化による効率的なクロスモーダル検索
- Authors: Yang Shi, Young-joo Chung
- Abstract要約: クロスモーダル検索は、異なるコンテンツモダリティにまたがる類似の意味を持つデータを検索することを目的としている。
クロスモーダル検索のための共同学習型ディープハッシュ・量子化ネットワーク(HQ)を提案する。
NUS-WIDE、MIR-Flickr、Amazonデータセットの実験結果は、HQの精度が7%以上向上していることを示している。
- 参考スコア(独自算出の注目度): 5.799838997511804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval aims to search for data with similar semantic meanings
across different content modalities. However, cross-modal retrieval requires
huge amounts of storage and retrieval time since it needs to process data in
multiple modalities. Existing works focused on learning single-source compact
features such as binary hash codes that preserve similarities between different
modalities. In this work, we propose a jointly learned deep hashing and
quantization network (HQ) for cross-modal retrieval. We simultaneously learn
binary hash codes and quantization codes to preserve semantic information in
multiple modalities by an end-to-end deep learning architecture. At the
retrieval step, binary hashing is used to retrieve a subset of items from the
search space, then quantization is used to re-rank the retrieved items. We
theoretically and empirically show that this two-stage retrieval approach
provides faster retrieval results while preserving accuracy. Experimental
results on the NUS-WIDE, MIR-Flickr, and Amazon datasets demonstrate that HQ
achieves boosts of more than 7% in precision compared to supervised neural
network-based compact coding models.
- Abstract(参考訳): クロスモーダル検索は、異なるコンテンツモダリティ間で類似の意味を持つデータを探すことを目的としている。
しかし、複数のモードでデータを処理する必要があるため、クロスモーダル検索には大量のストレージと検索時間が必要である。
既存の作業は、異なるモダリティ間の類似性を保ったバイナリハッシュコードのような、単一ソースのコンパクトな特徴の学習に重点を置いている。
本研究では,クロスモーダル検索のためのhq(deep hashing and quantization network)を提案する。
エンド・ツー・エンドのディープラーニングアーキテクチャにより,複数のモーダルで意味情報を保存するために,バイナリハッシュ符号と量子化符号を同時に学習する。
検索ステップでは、バイナリハッシュを使用して検索空間からアイテムのサブセットを検索し、量子化を使用して検索されたアイテムを再ランクする。
本研究では,この二段階検索手法が,精度を維持しつつ,より高速な検索結果をもたらすことを示す。
NUS-WIDE、MIR-Flickr、Amazonデータセットの実験結果は、HQが教師付きニューラルネットワークベースのコンパクトコーディングモデルと比較して7%以上の精度で向上していることを示している。
関連論文リスト
- CodeXEmbed: A Generalist Embedding Model Family for Multiligual and Multi-task Code Retrieval [103.116634967815]
CodeXEmbedは400Mから7Bパラメータの大規模なコード埋め込みモデルのファミリーである。
我々の新しいトレーニングパイプラインは、複数のプログラミング言語を統合し、様々なコード関連タスクを共通の検索フレームワークに変換する。
私たちの7Bモデルは、コード検索において新しい最先端(SOTA)を設定し、以前の主要なモデルであるVoyage-CodeをCoIRベンチマークで20%以上上回っています。
論文 参考訳(メタデータ) (2024-11-19T16:54:45Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote
Sensing [1.6758573326215689]
クロスモーダルテキスト画像検索はリモートセンシングにおいて大きな注目を集めている。
RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から,提案するDUCHは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-19T07:25:25Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Deep Unsupervised Contrastive Hashing for Large-Scale Cross-Modal
Text-Image Retrieval in Remote Sensing [1.6758573326215689]
本稿では,RSテキスト画像検索のための新しい非教師付きクロスモーダルコントラストハッシュ法(DUCH)を提案する。
実験結果から, DUCHは最先端の教師なしクロスモーダルハッシュ法より優れていることがわかった。
私たちのコードはhttps://git.tu-berlin.de/rsim/duch.comで公開されています。
論文 参考訳(メタデータ) (2022-01-20T12:05:10Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - Task-adaptive Asymmetric Deep Cross-modal Hashing [20.399984971442]
クロスモーダルハッシュは、異質なモダリティデータのセマンティックな相関関係を、識別的なセマンティックラベルを持つバイナリハッシュコードに埋め込むことを目的としている。
本稿では,タスク適応型非対称ディープクロスモーダルハッシュ(TA-ADCMH)法を提案する。
同時モーダル表現と非対称ハッシュ学習により,2つのサブ検索タスクに対するタスク適応型ハッシュ関数を学習することができる。
論文 参考訳(メタデータ) (2020-04-01T02:09:20Z) - A Novel Incremental Cross-Modal Hashing Approach [21.99741793652628]
我々は「iCMH」と呼ばれる新しい漸進的クロスモーダルハッシュアルゴリズムを提案する。
提案手法は,ハッシュコードを学習し,ハッシュ関数を訓練する2つの段階からなる。
さまざまなクロスモーダルデータセットの実験と最先端のクロスモーダルアルゴリズムとの比較は、我々のアプローチの有用性を示している。
論文 参考訳(メタデータ) (2020-02-03T12:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。