論文の概要: Representation Learning for Efficient and Effective Similarity Search
and Recommendation
- arxiv url: http://arxiv.org/abs/2109.01815v1
- Date: Sat, 4 Sep 2021 08:19:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 17:05:01.871142
- Title: Representation Learning for Efficient and Effective Similarity Search
and Recommendation
- Title(参考訳): 効率的な類似検索と推薦のための表現学習
- Authors: Casper Hansen
- Abstract要約: この論文は、より表現力のある表現とより効果的な類似度尺度を通じてハッシュコードの有効性を向上させる表現学習に貢献する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
- 参考スコア(独自算出の注目度): 6.280255585012339
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How data is represented and operationalized is critical for building
computational solutions that are both effective and efficient. A common
approach is to represent data objects as binary vectors, denoted \textit{hash
codes}, which require little storage and enable efficient similarity search
through direct indexing into a hash table or through similarity computations in
an appropriate space. Due to the limited expressibility of hash codes, compared
to real-valued representations, a core open challenge is how to generate hash
codes that well capture semantic content or latent properties using a small
number of bits, while ensuring that the hash codes are distributed in a way
that does not reduce their search efficiency. State of the art methods use
representation learning for generating such hash codes, focusing on neural
autoencoder architectures where semantics are encoded into the hash codes by
learning to reconstruct the original inputs of the hash codes. This thesis
addresses the above challenge and makes a number of contributions to
representation learning that (i) improve effectiveness of hash codes through
more expressive representations and a more effective similarity measure than
the current state of the art, namely the Hamming distance, and (ii) improve
efficiency of hash codes by learning representations that are especially suited
to the choice of search method. The contributions are empirically validated on
several tasks related to similarity search and recommendation.
- Abstract(参考訳): データの表現と運用は、効率的かつ効率的な計算ソリューションを構築する上で重要である。
一般的なアプローチは、データオブジェクトをバイナリベクトルとして表現することであり、ストレージをほとんど必要とせず、ハッシュテーブルへの直接インデックスや、適切な空間での類似性計算による効率的な類似性検索を可能にする。
ハッシュコードの表現性に限界があるため、実際の数値表現と比較して、少数のビットを使用してセマンティックコンテンツや潜在プロパティを適切にキャプチャするハッシュコードをどうやって生成するかが課題であり、ハッシュコードが検索効率を低下させない方法で分散されることを保証する。
最先端技術では、表現学習を用いてハッシュコードを生成する。そこでは、意味がハッシュコードにエンコードされるニューラルオートエンコーダアーキテクチャに焦点を当て、ハッシュコードの元の入力を再構築する学習を行う。
この論文は、上述した課題に対処し、(i)より表現力のある表現を通してハッシュ符号の有効性を向上し、そして(ii)検索方法の選択に特に適した表現を学習することによってハッシュ符号の効率を向上させることによる、技術の現在の状態、すなわちハミング距離よりも効果的な類似度尺度を提示する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
関連論文リスト
- Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - A Lower Bound of Hash Codes' Performance [122.88252443695492]
本稿では,ハッシュ符号間のクラス間の差分性とクラス内圧縮性が,ハッシュ符号の性能の低い境界を決定することを証明する。
次に、ハッシュコードの後部を推定し、それを制御することにより、上記の目的を完全に活用する代理モデルを提案し、低バイアス最適化を実現する。
一連のハッシュモデルをテストすることで、平均精度が最大で26.5%、精度が最大で20.5%向上した。
論文 参考訳(メタデータ) (2022-10-12T03:30:56Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - Unsupervised Multi-Index Semantic Hashing [23.169142004594434]
マルチインデックスハッシュに最適化することで,効率的かつ高効率なハッシュコードを学習する教師なしハッシュモデルを提案する。
文書類似度検索のタスクにおいて、MISHと最先端のセマンティックハッシュベースラインを実験的に比較する。
マルチインデックスハッシュは、線形スキャンと比較してベースラインの効率も向上しますが、MISHよりも33%遅くなっています。
論文 参考訳(メタデータ) (2021-03-26T13:33:48Z) - Self-supervised asymmetric deep hashing with margin-scalable constraint
for image retrieval [3.611160663701664]
画像検索のためのマージンスケール可能な制約(SADH)アプローチを備えた,新しい自己監視型非対称深ハッシュ法を提案する。
sadhは自己教師付きネットワークを実装し、セマンティック特徴マップに意味情報を保存し、与えられたデータセットのセマンティクスを意味コードマップに格納する。
特徴学習部では、ハミング空間におけるペア関係の高精度な構築とより識別的なハッシュコード表現の両方に、新たなマージンスケータブル制約を用いる。
論文 参考訳(メタデータ) (2020-12-07T16:09:37Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Unsupervised Semantic Hashing with Pairwise Reconstruction [22.641786533525245]
本稿では、離散変分オートエンコーダに基づくハッシュモデルであるPairwise Reconstruction(PairRec)を提案する。
PairRecと従来の手法と最先端の手法を実験的に比較し,文書類似性検索のタスクにおいて大幅な性能向上を実現した。
論文 参考訳(メタデータ) (2020-07-01T10:54:27Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z) - A Survey on Deep Hashing Methods [52.326472103233854]
最寄りの検索は、データベースからクエリまでの距離が最小のサンプルを取得することを目的としている。
ディープラーニングの発展により、ディープハッシュ法は従来の方法よりも多くの利点を示す。
深い教師付きハッシュは、ペアワイズ法、ランキングベースの方法、ポイントワイズ法、量子化に分類される。
深い教師なしハッシュは、類似性再構築に基づく方法、擬似ラベルに基づく方法、予測自由な自己教師あり学習に基づく方法に分類される。
論文 参考訳(メタデータ) (2020-03-04T08:25:15Z) - Image Hashing by Minimizing Discrete Component-wise Wasserstein Distance [12.968141477410597]
競合するオートエンコーダは、バランスよく高品質なハッシュコードを生成する堅牢で局所性を保存するハッシュ関数を暗黙的に学習できることが示されている。
既存の逆ハッシュ法は、大規模な画像検索に非効率である。
本稿では,サンプル要求と計算コストを大幅に低減した,新しい対向型オートエンコーダハッシュ手法を提案する。
論文 参考訳(メタデータ) (2020-02-29T00:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。