論文の概要: Vision Transformer Hashing for Image Retrieval
- arxiv url: http://arxiv.org/abs/2109.12564v1
- Date: Sun, 26 Sep 2021 11:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:26:43.902624
- Title: Vision Transformer Hashing for Image Retrieval
- Title(参考訳): 画像検索のための視覚変換器ハッシュ
- Authors: Shiv Ram Dubey, Satish Kumar Singh, Wei-Ta Chu
- Abstract要約: 画像検索のためのVTS(Vision Transformer based Hashing)を提案する。
我々は、ImageNet上のトレーニング済みViTをバックボーンネットワークとして利用し、ハッシュヘッドを追加する。
提案するVTSモデルは、6つの異なる画像検索フレームワーク下でのハッシュ処理に最適である。
- 参考スコア(独自算出の注目度): 26.05712605364617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has shown a tremendous growth in hashing techniques for image
retrieval. Recently, Transformer has emerged as a new architecture by utilizing
self-attention without convolution. Transformer is also extended to Vision
Transformer (ViT) for the visual recognition with a promising performance on
ImageNet. In this paper, we propose a Vision Transformer based Hashing (VTS)
for image retrieval. We utilize the pre-trained ViT on ImageNet as the backbone
network and add the hashing head. The proposed VTS model is fine tuned for
hashing under six different image retrieval frameworks, including Deep
Supervised Hashing (DSH), HashNet, GreedyHash, Improved Deep Hashing Network
(IDHN), Deep Polarized Network (DPN) and Central Similarity Quantization (CSQ)
with their objective functions. We perform the extensive experiments on
CIFAR10, ImageNet, NUS-Wide, and COCO datasets. The proposed VTS based image
retrieval outperforms the recent state-of-the-art hashing techniques with a
great margin. We also find the proposed VTS model as the backbone network is
better than the existing networks, such as AlexNet and ResNet.
- Abstract(参考訳): ディープラーニングは、画像検索のためのハッシュ技術が著しく成長していることを示している。
近年,畳み込みのないセルフアテンションを利用した新しいアーキテクチャとしてトランスフォーマーが登場している。
Transformer は視覚認識のために Vision Transformer (ViT) にも拡張されており、ImageNet 上で有望なパフォーマンスを実現している。
本稿では,画像検索のためのVTS(Vision Transformer Based Hashing)を提案する。
我々は、ImageNet上のトレーニング済みViTをバックボーンネットワークとして利用し、ハッシュヘッドを追加する。
提案するVTSモデルは,Deep Supervised Hashing (DSH), HashNet, GreedyHash, Improved Deep Hashing Network (IDHN), Deep Polarized Network (DPN), Central similarity Quantization (CSQ) の6つの画像検索フレームワーク下でのハッシュ処理に最適である。
CIFAR10, ImageNet, NUS-Wide, COCOデータセットに関する広範な実験を行った。
提案したVTSに基づく画像検索は,最近の最先端のハッシュ技術よりも高いマージンを有する。
また、バックボーンネットワークが既存のネットワークであるAlexNetやResNetよりも優れているため、提案したVTSモデルも見出す。
関連論文リスト
- HybridHash: Hybrid Convolutional and Self-Attention Deep Hashing for Image Retrieval [0.3880517371454968]
ハイブリッドハッシュ(HybridHash)と呼ばれるハイブリッド畳み込み型・自己注意型ディープハッシュ法を提案する。
我々はCIFAR-10, NUS-WIDE, ImagingNETの3つの広く利用されているデータセットについて総合的な実験を行った。
実験の結果,提案手法は最先端の深層ハッシュ法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-13T07:45:20Z) - Leveraging High-Resolution Features for Improved Deep Hashing-based Image Retrieval [0.10923877073891444]
本稿では,HHNet(High-Resolution Hashing Network)と呼ばれるディープハッシュタスクのバックボーンとして高分解能ネットワーク(HRNet)を利用する新しい手法を提案する。
提案手法は,CIFAR-10, NUS-WIDE, MS COCO, ImageNetなど,すべてのベンチマークデータセットを対象とした既存手法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-20T16:54:55Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - OSCAR-Net: Object-centric Scene Graph Attention for Image Attribution [4.240450464137861]
このようなマッチングを行うために,ロバストな画像ハッシュアルゴリズムを提案する。
私たちのハッシュは、微妙で健全な視覚的詳細の操作に敏感です。
私たちの重要な貢献はOSCAR-Netです。これは、視覚領域におけるトランスフォーマーの最近の成功にインスパイアされた、堅牢なイメージハッシュモデルです。
論文 参考訳(メタデータ) (2021-08-07T23:36:20Z) - TransHash: Transformer-based Hamming Hashing for Efficient Image
Retrieval [0.0]
textbfTranshashは、深層ハッシュ学習のための純粋なトランスフォーマーベースのフレームワークである。
3つの公開データセットのハッシュビット長の平均テキストサイズmAPでは,8.2%,2.6%,12.7%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2021-05-05T01:35:53Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Deep Reinforcement Learning with Label Embedding Reward for Supervised
Image Hashing [85.84690941656528]
深層型ハッシュのための新しい意思決定手法を提案する。
我々はBose-Chaudhuri-Hocquenghem符号で定義された新しいラベル埋め込み報酬を用いて、深いQ-ネットワークを学ぶ。
我々の手法は、様々なコード長で最先端の教師付きハッシュ法より優れています。
論文 参考訳(メタデータ) (2020-08-10T09:17:20Z) - A survey on deep hashing for image retrieval [7.156209824590489]
本稿では,既存のハッシュ手法のボトルネックを突破しようとするシャドウリカレントハッシュ(SRH)手法を提案する。
具体的には、画像の意味的特徴を抽出するCNNアーキテクチャを考案し、類似した画像を近接に投影するロス関数を設計する。
データセットCIFAR-10のいくつかの実験は、SRHの満足な性能を示している。
論文 参考訳(メタデータ) (2020-06-10T03:01:59Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。