論文の概要: ViT2Hash: Unsupervised Information-Preserving Hashing
- arxiv url: http://arxiv.org/abs/2201.05541v1
- Date: Fri, 14 Jan 2022 16:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 15:00:05.192908
- Title: ViT2Hash: Unsupervised Information-Preserving Hashing
- Title(参考訳): ViT2Hash: 教師なしの情報保存ハッシュ
- Authors: Qinkang Gong, Liangdao Wang, Hanjiang Lai, Yan Pan, Jian Yin
- Abstract要約: 本稿では,教師なしハッシュタスクのViTモデルを微調整する簡易情報保存圧縮機を提案する。
提案手法は非常に単純で,3つのベンチマーク画像データセット上でのMAPの精度は極めて高い。
- 参考スコア(独自算出の注目度): 14.13339328144601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised image hashing, which maps images into binary codes without
supervision, is a compressor with a high compression rate. Hence, how to
preserving meaningful information of the original data is a critical problem.
Inspired by the large-scale vision pre-training model, known as ViT, which has
shown significant progress for learning visual representations, in this paper,
we propose a simple information-preserving compressor to finetune the ViT model
for the target unsupervised hashing task. Specifically, from pixels to
continuous features, we first propose a feature-preserving module, using the
corrupted image as input to reconstruct the original feature from the
pre-trained ViT model and the complete image, so that the feature extractor can
focus on preserving the meaningful information of original data. Secondly, from
continuous features to hash codes, we propose a hashing-preserving module,
which aims to keep the semantic information from the pre-trained ViT model by
using the proposed Kullback-Leibler divergence loss. Besides, the quantization
loss and the similarity loss are added to minimize the quantization error. Our
method is very simple and achieves a significantly higher degree of MAP on
three benchmark image datasets.
- Abstract(参考訳): 教師なしの2進符号に画像をマッピングする教師なし画像ハッシュは、高い圧縮率の圧縮機である。
したがって、元のデータの有意義な情報を保存する方法が重要な問題である。
本稿では,視覚表現の学習において大きな進歩を見せている視覚前訓練モデルViTに触発されて,対象の教師なしハッシュタスクに対して,ViTモデルを微調整する簡易情報保存圧縮機を提案する。
具体的には、画素から連続的な特徴まで、まず、劣化した画像を入力として、トレーニング済みのViTモデルと完全な画像から元の特徴を再構成し、特徴抽出器が原データの有意義な情報を保存することに集中できるように、特徴保存モジュールを提案する。
第二に、連続的な特徴からハッシュコードまで、提案したKullback-Leibler分散損失を用いて、トレーニング済みのViTモデルから意味情報を保持するためのハッシュ保存モジュールを提案する。
また、量子化誤差を最小限に抑えるために量子化損失と類似性損失を加える。
提案手法は非常に単純で,3つのベンチマーク画像データセット上でのMAPの精度は極めて高い。
関連論文リスト
- Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Weighted Contrastive Hashing [11.14153532458873]
教師なしハッシュ開発は、世界限定の画像表現に基づくデータ類似性マイニングの不足によって妨げられている。
本稿では,欠落した画像構造によって引き起こされるネットワーク特徴における情報非対称性の問題を軽減するために,新たな相互注意モジュールを提案する。
深い画像関係を反映した集約重み付き類似性を蒸留し、蒸留損失を伴うハッシュコード学習を容易にする。
論文 参考訳(メタデータ) (2022-09-28T13:47:33Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Deep Unsupervised Image Hashing by Maximizing Bit Entropy [10.317821747778643]
教師なしハッシュは、高価なアノテーションなしで巨大な画像やビデオコレクションをインデックスする上で重要である。
我々は,バイナリコードのエントロピーを最大化するbi- half netと呼ばれる教師なしのディープハッシュ層を提案する。
画像データセットFlickr25k, Nus-wide, Cifar-10, Mscoco, MnistおよびビデオデータセットUcf-101およびHmdb-51の実験結果は、我々のアプローチがコンパクトなコードにつながることを示している。
論文 参考訳(メタデータ) (2020-12-22T20:10:15Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - What Information Does a ResNet Compress? [0.0]
情報ボトルネックの原理がResNetモデルを用いて現実的な設定に適用できるかどうかを検証する。
学習の2つの段階は、両方の訓練体制で起こり、圧縮はオートエンコーダでも起こります。
論文 参考訳(メタデータ) (2020-03-13T13:02:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。