論文の概要: Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation
- arxiv url: http://arxiv.org/abs/2002.06239v1
- Date: Fri, 14 Feb 2020 20:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 05:15:42.313213
- Title: Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation
- Title(参考訳): Boosted Locality Sensitive Hashing: ソース分離のための差別的なバイナリコード
- Authors: Sunwoo Kim, Haici Yang, Minje Kim
- Abstract要約: 音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
- 参考スコア(独自算出の注目度): 19.72987718461291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech enhancement tasks have seen significant improvements with the advance
of deep learning technology, but with the cost of increased computational
complexity. In this study, we propose an adaptive boosting approach to learning
locality sensitive hash codes, which represent audio spectra efficiently. We
use the learned hash codes for single-channel speech denoising tasks as an
alternative to a complex machine learning model, particularly to address the
resource-constrained environments. Our adaptive boosting algorithm learns
simple logistic regressors as the weak learners. Once trained, their binary
classification results transform each spectrum of test noisy speech into a bit
string. Simple bitwise operations calculate Hamming distance to find the
K-nearest matching frames in the dictionary of training noisy speech spectra,
whose associated ideal binary masks are averaged to estimate the denoising mask
for that test mixture. Our proposed learning algorithm differs from AdaBoost in
the sense that the projections are trained to minimize the distances between
the self-similarity matrix of the hash codes and that of the original spectra,
rather than the misclassification rate. We evaluate our discriminative hash
codes on the TIMIT corpus with various noise types, and show comparative
performance to deep learning methods in terms of denoising performance and
complexity.
- Abstract(参考訳): 音声強調タスクは、ディープラーニング技術の進歩によって大幅に改善されているが、計算の複雑さが増大するコストが伴う。
本研究では,音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的促進手法を提案する。
学習したハッシュコードは、複雑な機械学習モデルの代替として、特にリソースに制約のある環境に対処するために、単一チャネルの音声認識タスクに使用される。
適応ブースティングアルゴリズムは,単純なロジスティック回帰を弱い学習者として学習する。
一度訓練すると、その二分分類結果は、テストノイズ音声の各スペクトルをビット文字列に変換する。
簡単なビットワイズ演算はハミング距離を計算し、学習ノイズ音声スペクトルの辞書でK-アネアレストマッチングフレームを見つけ、関連する理想二乗マスクを平均化し、その試験混合物の復調マスクを推定する。
提案する学習アルゴリズムは,ハッシュ符号の自己相似行列と原スペクトルとの距離を,誤分類率よりも最小にするために,投影法を訓練するという意味で,AdaBoostと異なる。
我々は,様々なノイズタイプを持つティミットコーパス上での識別ハッシュコードを評価し,その性能と複雑性について深層学習法と比較した。
関連論文リスト
- Pivotal Auto-Encoder via Self-Normalizing ReLU [20.76999663290342]
トランスフォーメーション学習問題として,単一の隠蔽層スパースオートエンコーダを定式化する。
本稿では,テスト時の騒音レベルに不変な予測モデルを実現する最適化問題を提案する。
実験結果から, 各種ノイズに対する安定性が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-23T09:06:52Z) - A Noise-tolerant Differentiable Learning Approach for Single Occurrence
Regular Expression with Interleaving [19.660606583532598]
本研究では,音のある文字列の集合からインターリービング(SOIRE)を用いて単一発生正規表現を学習する問題について検討する。
従来の研究のほとんどは制限されたSOIREしか学習せず、ノイズの多いデータでは堅牢ではない。
本稿では,SOIREのための耐雑音性差分学習手法SOIREDLを提案する。
論文 参考訳(メタデータ) (2022-12-01T09:05:43Z) - Simultaneously Learning Robust Audio Embeddings and balanced Hash codes
for Query-by-Example [8.585546027122808]
最先端のシステムは、ディープラーニングを使ってコンパクトなオーディオ指紋を生成する。
これらのシステムは、指紋を定量化し、教師なしの方法でハッシュコードにインデックスを配置し、検索を高速化する。
指紋とハッシュコードのバランスをエンドツーエンドに計算するための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T19:22:44Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Using deep learning to understand and mitigate the qubit noise
environment [0.0]
本稿では,量子ビット上の時間力学測定から正確な雑音スペクトルを抽出する手法を提案する。
任意の浴槽に囲まれた任意のキュービットに付随する雑音スペクトルを抽出するニューラルネットワークに基づく手法を実証する。
この結果は、様々なキュービットプラットフォームに適用でき、キュービット性能を改善するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2020-05-03T17:13:14Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。