論文の概要: Simultaneously Learning Robust Audio Embeddings and balanced Hash codes
for Query-by-Example
- arxiv url: http://arxiv.org/abs/2211.11060v1
- Date: Sun, 20 Nov 2022 19:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 23:29:48.196208
- Title: Simultaneously Learning Robust Audio Embeddings and balanced Hash codes
for Query-by-Example
- Title(参考訳): クエリ・バイ・サンプルのためのロバストなオーディオ埋め込みとバランスの取れたハッシュコードの同時学習
- Authors: Anup Singh, Kris Demuynck, Vipul Arora
- Abstract要約: 最先端のシステムは、ディープラーニングを使ってコンパクトなオーディオ指紋を生成する。
これらのシステムは、指紋を定量化し、教師なしの方法でハッシュコードにインデックスを配置し、検索を高速化する。
指紋とハッシュコードのバランスをエンドツーエンドに計算するための自己教師付き学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.585546027122808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio fingerprinting systems must efficiently and robustly identify query
snippets in an extensive database. To this end, state-of-the-art systems use
deep learning to generate compact audio fingerprints. These systems deploy
indexing methods, which quantize fingerprints to hash codes in an unsupervised
manner to expedite the search. However, these methods generate imbalanced hash
codes, leading to their suboptimal performance. Therefore, we propose a
self-supervised learning framework to compute fingerprints and balanced hash
codes in an end-to-end manner to achieve both fast and accurate retrieval
performance. We model hash codes as a balanced clustering process, which we
regard as an instance of the optimal transport problem. Experimental results
indicate that the proposed approach improves retrieval efficiency while
preserving high accuracy, particularly at high distortion levels, compared to
the competing methods. Moreover, our system is efficient and scalable in
computational load and memory storage.
- Abstract(参考訳): 音声フィンガープリントシステムは、広範囲なデータベース内のクエリスニペットを効率的かつ堅牢に識別する必要がある。
この目的のために最先端のシステムは、ディープラーニングを使ってコンパクトなオーディオ指紋を生成する。
これらのシステムは、指紋をハッシュコードに量子化し、教師なしの方法で検索を迅速化するインデックス化手法を展開する。
しかし、これらの手法は不均衡なハッシュコードを生成し、その準最適性能をもたらす。
そこで本稿では,高速かつ正確な検索性能を実現するために,指紋とハッシュコードのバランスをエンドツーエンドに計算する自己教師型学習フレームワークを提案する。
我々は、最適な輸送問題の例として、ハッシュコードをバランスの取れたクラスタリングプロセスとしてモデル化する。
実験結果から,提案手法は高い精度,特に歪みレベルを高い精度で保持しながら,検索効率を向上させることが示唆された。
さらに,本システムは計算負荷とメモリストレージにおいて効率的かつスケーラブルである。
関連論文リスト
- Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Cascading Hierarchical Networks with Multi-task Balanced Loss for
Fine-grained hashing [1.6244541005112747]
きめ細かいハッシュは従来のハッシュ問題よりも難しい。
本稿では,コンパクトでセマンティックなハッシュコードを学習するためのカスケードネットワークを提案する。
また,マルチタスク学習の損失を協調的にバランスさせる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:08:48Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Representation Learning for Efficient and Effective Similarity Search
and Recommendation [6.280255585012339]
この論文は、より表現力のある表現とより効果的な類似度尺度を通じてハッシュコードの有効性を向上させる表現学習に貢献する。
コントリビューションは、類似性検索とレコメンデーションに関連するいくつかのタスクで実証的に検証される。
論文 参考訳(メタデータ) (2021-09-04T08:19:01Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Deep Hashing with Hash-Consistent Large Margin Proxy Embeddings [65.36757931982469]
画像ハッシュコードは、分類または検索のために訓練された畳み込みニューラルネットワーク(CNN)の埋め込みをバイナライズすることによって生成される。
この曖昧さを解消するために、固定されたプロキシ(CNN分類層の重み)の使用が提案されている。
得られたHCLMプロキシはハッシュ単位の飽和を促進することが示され、小さな二項化誤差が保証される。
論文 参考訳(メタデータ) (2020-07-27T23:47:43Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Reinforcing Short-Length Hashing [61.75883795807109]
既存の手法は、非常に短いハッシュコードを用いた検索性能が劣っている。
本研究では, 短寿命ハッシュ(RSLH)を改良する新しい手法を提案する。
本稿では,ハッシュ表現とセマンティックラベルの相互再構成を行い,セマンティック情報を保存する。
3つの大規模画像ベンチマークの実験は、様々な短いハッシュシナリオ下でのRSLHの優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-24T02:23:52Z) - Image Hashing by Minimizing Discrete Component-wise Wasserstein Distance [12.968141477410597]
競合するオートエンコーダは、バランスよく高品質なハッシュコードを生成する堅牢で局所性を保存するハッシュ関数を暗黙的に学習できることが示されている。
既存の逆ハッシュ法は、大規模な画像検索に非効率である。
本稿では,サンプル要求と計算コストを大幅に低減した,新しい対向型オートエンコーダハッシュ手法を提案する。
論文 参考訳(メタデータ) (2020-02-29T00:22:53Z) - Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation [19.72987718461291]
音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
論文 参考訳(メタデータ) (2020-02-14T20:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。