論文の概要: Unsupervised Multi-Index Semantic Hashing
- arxiv url: http://arxiv.org/abs/2103.14460v1
- Date: Fri, 26 Mar 2021 13:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 16:56:35.191633
- Title: Unsupervised Multi-Index Semantic Hashing
- Title(参考訳): 教師なしマルチインデックス意味ハッシュ
- Authors: Christian Hansen, Casper Hansen, Jakob Grue Simonsen, Stephen Alstrup,
Christina Lioma
- Abstract要約: マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルを提案する。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは、線形スキャンと比較してベースラインの効率も向上しますが、MISHよりも33%遅くなっています。
- 参考スコア(独自算出の注目度): 23.169142004594434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic hashing represents documents as compact binary vectors (hash codes)
and allows both efficient and effective similarity search in large-scale
information retrieval. The state of the art has primarily focused on learning
hash codes that improve similarity search effectiveness, while assuming a
brute-force linear scan strategy for searching over all the hash codes, even
though much faster alternatives exist. One such alternative is multi-index
hashing, an approach that constructs a smaller candidate set to search over,
which depending on the distribution of the hash codes can lead to sub-linear
search time. In this work, we propose Multi-Index Semantic Hashing (MISH), an
unsupervised hashing model that learns hash codes that are both effective and
highly efficient by being optimized for multi-index hashing. We derive novel
training objectives, which enable to learn hash codes that reduce the candidate
sets produced by multi-index hashing, while being end-to-end trainable. In
fact, our proposed training objectives are model agnostic, i.e., not tied to
how the hash codes are generated specifically in MISH, and are straight-forward
to include in existing and future semantic hashing models. We experimentally
compare MISH to state-of-the-art semantic hashing baselines in the task of
document similarity search. We find that even though multi-index hashing also
improves the efficiency of the baselines compared to a linear scan, they are
still upwards of 33% slower than MISH, while MISH is still able to obtain
state-of-the-art effectiveness.
- Abstract(参考訳): セマンティックハッシュは文書をコンパクトなバイナリベクトル(ハッシュ符号)として表現し、大規模情報検索において効率的かつ効果的な類似性探索を可能にする。
最先端技術は、類似性検索の有効性を改善するハッシュコードの学習に重点を置いている一方で、より高速な代替手段が存在するにもかかわらず、すべてのハッシュコードの検索にブルートフォースの線形スキャン戦略を仮定している。
そのような選択肢のひとつがマルチインデックスハッシュである。これはより小さな探索対象セットを構築するアプローチであり、ハッシュコードの分布によってはサブリニアな検索時間に繋がる可能性がある。
本研究では,マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルであるmulti-index semantic hashing (mish)を提案する。
我々は,マルチインデックスハッシュによって生成される候補集合をエンドツーエンドで訓練可能としながら減少させるハッシュ符号を学習できる新しい学習目標を導出する。
実際、提案したトレーニング対象はモデル非依存であり、すなわち、ハッシュコードがMISHでどのように生成されるかに縛られず、既存のセマンティックハッシュモデルと将来のセマンティックハッシュモデルに含めることができる。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは線形スキャンに比べてベースラインの効率も向上するが、mishより33%遅いが、mishは最先端の効率を得ることができる。
関連論文リスト
- ElasticHash: Semantic Image Similarity Search by Deep Hashing with
Elasticsearch [0.9167082845109439]
ElasticHashは、高品質で効率的で大規模なセマンティックイメージ類似検索のための新しいアプローチである。
これは、自然画像における微細な画像類似性探索のためのハッシュコードを学ぶための深いハッシュモデルに基づいている。
論文 参考訳(メタデータ) (2023-05-08T13:50:47Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - A Lower Bound of Hash Codes' Performance [122.88252443695492]
本稿では,ハッシュ符号間のクラス間の差分性とクラス内圧縮性が,ハッシュ符号の性能の低い境界を決定することを証明する。
次に、ハッシュコードの後部を推定し、それを制御することにより、上記の目的を完全に活用する代理モデルを提案し、低バイアス最適化を実現する。
一連のハッシュモデルをテストすることで、平均精度が最大で26.5%、精度が最大で20.5%向上した。
論文 参考訳(メタデータ) (2022-10-12T03:30:56Z) - Learning to Hash Naturally Sorts [84.90210592082829]
そこで我々はNaturely-Sorted Hashing (NSH)を導入し,最終結果のソートによる深層ハッシュモデルのトレーニングを行った。
NSHはサンプルのハッシュコードのハミング距離をソートし、それに従って自己教師付きトレーニングのための潜伏した表現を収集する。
Sorted Noise-Contrastive Estimation (SortedNCE) の新たな損失について述べる。
論文 参考訳(メタデータ) (2022-01-31T16:19:02Z) - Representation Learning for Efficient and Effective Similarity Search
and Recommendation [6.280255585012339]
この論文は、より表現力のある表現とより効果的な類似度尺度を通じてハッシュコードの有効性を向上させる表現学習に貢献する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
論文 参考訳(メタデータ) (2021-09-04T08:19:01Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Multiple Code Hashing for Efficient Image Retrieval [16.750400008178293]
本稿では,ハッシュバケット探索の性能向上のため,マルチコードハッシュ(MCH)と呼ばれる新しいハッシュフレームワークを提案する。
MCHは各画像の複数のハッシュコードを学習し、各コードは画像の異なる領域を表す。
我々の知る限りでは、画像検索において各画像に対する複数のハッシュコードを学習することを提案する最初の研究である。
論文 参考訳(メタデータ) (2020-08-04T13:18:19Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z) - A Survey on Deep Hashing Methods [52.326472103233854]
最寄りの検索は、データベースからクエリまでの距離が最小のサンプルを取得することを目的としている。
ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。
深い教師付きハッシュは、ペアワイズ法、ランキングベースの方法、ポイントワイズ法、量子化に分類される。
深い教師なしハッシュは、類似性再構築に基づく方法、擬似ラベルに基づく方法、予測自由な自己教師あり学習に基づく方法に分類される。
論文 参考訳(メタデータ) (2020-03-04T08:25:15Z) - Image Hashing by Minimizing Discrete Component-wise Wasserstein Distance [12.968141477410597]
競合するオートエンコーダは、バランスよく高品質なハッシュコードを生成する堅牢で局所性を保存するハッシュ関数を暗黙的に学習できることが示されている。
既存の逆ハッシュ法は、大規模な画像検索に非効率である。
本稿では,サンプル要求と計算コストを大幅に低減した,新しい対向型オートエンコーダハッシュ手法を提案する。
論文 参考訳(メタデータ) (2020-02-29T00:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。