論文の概要: TransHash: Transformer-based Hamming Hashing for Efficient Image
Retrieval
- arxiv url: http://arxiv.org/abs/2105.01823v1
- Date: Wed, 5 May 2021 01:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 21:33:45.919724
- Title: TransHash: Transformer-based Hamming Hashing for Efficient Image
Retrieval
- Title(参考訳): TransHash: 効率的な画像検索のためのトランスフォーマーベースのハミングハッシュ
- Authors: Yongbiao Chen (1), Sheng Zhang (2), Fangxin Liu (1), Zhigang Chang
(1), Mang Ye (3), Zhengwei Qi (1) ((1) Shanghai Jiao Tong University, (2)
University of Southern California, (3) Wuhan University)
- Abstract要約: textbfTranshashは、深層ハッシュ学習のための純粋なトランスフォーマーベースのフレームワークである。
3つの公開データセットのハッシュビット長の平均テキストサイズmAPでは,8.2%,2.6%,12.7%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep hamming hashing has gained growing popularity in approximate nearest
neighbour search for large-scale image retrieval. Until now, the deep hashing
for the image retrieval community has been dominated by convolutional neural
network architectures, e.g. \texttt{Resnet}\cite{he2016deep}. In this paper,
inspired by the recent advancements of vision transformers, we present
\textbf{Transhash}, a pure transformer-based framework for deep hashing
learning. Concretely, our framework is composed of two major modules: (1) Based
on \textit{Vision Transformer} (ViT), we design a siamese vision transformer
backbone for image feature extraction. To learn fine-grained features, we
innovate a dual-stream feature learning on top of the transformer to learn
discriminative global and local features. (2) Besides, we adopt a Bayesian
learning scheme with a dynamically constructed similarity matrix to learn
compact binary hash codes. The entire framework is jointly trained in an
end-to-end manner.~To the best of our knowledge, this is the first work to
tackle deep hashing learning problems without convolutional neural networks
(\textit{CNNs}). We perform comprehensive experiments on three widely-studied
datasets: \textbf{CIFAR-10}, \textbf{NUSWIDE} and \textbf{IMAGENET}. The
experiments have evidenced our superiority against the existing
state-of-the-art deep hashing methods. Specifically, we achieve 8.2\%, 2.6\%,
12.7\% performance gains in terms of average \textit{mAP} for different hash
bit lengths on three public datasets, respectively.
- Abstract(参考訳): ディープハミングハッシュは大規模画像検索の近距離探索で人気が高まっている。
これまで、画像検索コミュニティのための深いハッシュは、例えば畳み込みニューラルネットワークアーキテクチャによって支配されていた。
\texttt{Resnet}\cite{he2016deep}。
本稿では,視覚トランスフォーマーの最近の進歩に触発されて,ディープハッシュ学習のための純粋トランスフォーマーフレームワークである \textbf{transhash} を提案する。
具体的には,(1) <textit{Vision Transformer} (ViT) に基づいて,画像特徴抽出のためのシアメーゼ視覚変換器のバックボーンを設計する。
細かな特徴を学ぶために、トランスフォーマーの上にデュアルストリーム機能学習を革新し、差別的なグローバル機能とローカル機能を学ぶ。
さらに,動的に構築された類似度行列を用いたベイズ学習方式を採用し,コンパクトなバイナリハッシュ符号を学習する。
私たちの知る限りでは、畳み込みニューラルネットワーク(\textit{CNNs})を使わずに深層学習問題に取り組む最初の試みである。
我々は,広く研究されている3つのデータセット, \textbf{CIFAR-10}, \textbf{NUSWIDE}, \textbf{IMAGENET}について包括的な実験を行った。
この実験は、既存の最先端のディープハッシュ手法に対する我々の優位性を証明した。
具体的には、3つの公開データセットでそれぞれ異なるハッシュビット長に対する平均 \textit{mAP} で 8.2\%, 2.6\%, 12.7\% のパフォーマンス向上を達成する。
関連論文リスト
- HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval [0.3880517371454968]
ハイブリッドハッシュ(HybridHash)と呼ばれるハイブリッド畳み込み型・自己注意型ディープハッシュ法を提案する。
我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。
実験の結果,提案手法は最先端の深層ハッシュ法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-13T07:45:20Z) - DVHN: A Deep Hashing Framework for Large-scale Vehicle Re-identification [5.407157027628579]
本稿では、メモリ使用量を大幅に削減し、検索効率を向上させるディープハッシュベースの車両再識別フレームワークDVHNを提案する。
DVHNは、特徴学習ネットワークとハッシュコード生成モジュールとを協調最適化することにより、各画像の離散コンパクトなバイナリハッシュコードを直接学習する。
2048ドルビットの textbfDVHN は textbfmAP と textbfRank@1 for textbfVehicleID (800) データセットで 13.94% と 10.21% の精度向上を達成できる。
論文 参考訳(メタデータ) (2021-12-09T14:11:27Z) - PHPQ: Pyramid Hybrid Pooling Quantization for Efficient Fine-Grained
Image Retrieval [68.05570413133462]
マルチレベル特徴量から微細なセマンティック情報を捕捉・保存するためのピラミッドハイブリッドポーリング量子化(PHPQ)モジュールを提案する。
CUB-200-2011とStanford Dogsの2つの広く使用されている公開ベンチマークの実験では、PHPQが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2021-09-11T07:21:02Z) - Contextual Transformer Networks for Visual Recognition [103.79062359677452]
視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
論文 参考訳(メタデータ) (2021-07-26T16:00:21Z) - Deep Reinforcement Learning with Label Embedding Reward for Supervised
Image Hashing [85.84690941656528]
深層型ハッシュのための新しい意思決定手法を提案する。
我々はBose-Chaudhuri-Hocquenghem符号で定義された新しいラベル埋め込み報酬を用いて、深いQ-ネットワークを学ぶ。
我々の手法は、様々なコード長で最先端の教師付きハッシュ法より優れています。
論文 参考訳(メタデータ) (2020-08-10T09:17:20Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z) - A survey on deep hashing for image retrieval [7.156209824590489]
本稿では,既存のハッシュ手法のボトルネックを突破しようとするシャドウリカレントハッシュ(SRH)手法を提案する。
具体的には、画像の意味的特徴を抽出するCNNアーキテクチャを考案し、類似した画像を近接に投影するロス関数を設計する。
データセットCIFAR-10のいくつかの実験は、SRHの満足な性能を示している。
論文 参考訳(メタデータ) (2020-06-10T03:01:59Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。