論文の概要: Unsupervised Discovery of Recurring Speech Patterns Using Probabilistic
Adaptive Metrics
- arxiv url: http://arxiv.org/abs/2008.00731v1
- Date: Mon, 3 Aug 2020 09:09:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:49:04.368549
- Title: Unsupervised Discovery of Recurring Speech Patterns Using Probabilistic
Adaptive Metrics
- Title(参考訳): 確率的適応指標を用いた繰り返し音声パターンの教師なし発見
- Authors: Okko R\"as\"anen and Mar\'ia Andrea Cruz Bland\'on
- Abstract要約: 教師なし音声語検出は、音声音声データのコーパスから繰り返し発生する音声のセグメントを見つけることを目的としている。
この問題に対する潜在的なアプローチの1つは、ダイナミック・タイム・ワープ(DTW)を使用して、音声データから順応パターンを見つけることである。
本稿では, PDTW をベースとした UTD に対する新しい確率論的アプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised spoken term discovery (UTD) aims at finding recurring segments
of speech from a corpus of acoustic speech data. One potential approach to this
problem is to use dynamic time warping (DTW) to find well-aligning patterns
from the speech data. However, automatic selection of initial candidate
segments for the DTW-alignment and detection of "sufficiently good" alignments
among those require some type of pre-defined criteria, often operationalized as
threshold parameters for pair-wise distance metrics between signal
representations. In the existing UTD systems, the optimal hyperparameters may
differ across datasets, limiting their applicability to new corpora and truly
low-resource scenarios. In this paper, we propose a novel probabilistic
approach to DTW-based UTD named as PDTW. In PDTW, distributional
characteristics of the processed corpus are utilized for adaptive evaluation of
alignment quality, thereby enabling systematic discovery of pattern pairs that
have similarity what would be expected by coincidence. We test PDTW on Zero
Resource Speech Challenge 2017 datasets as a part of 2020 implementation of the
challenge. The results show that the system performs consistently on all five
tested languages using fixed hyperparameters, clearly outperforming the earlier
DTW-based system in terms of coverage of the detected patterns.
- Abstract(参考訳): unsupervised spoken term discovery (utd) は、音響音声データのコーパスから繰り返し発生する音声のセグメントを見つけることを目的としている。
この問題に対する潜在的なアプローチの1つは、ダイナミック・タイム・ワープ(DTW)を使用して、音声データから順応パターンを見つけることである。
しかし、DTWアライメントのための初期候補セグメントの自動選択と、信号表現間のペアワイド距離メトリクスのしきい値として運用される、ある種の事前定義された基準を必要とする「十分良い」アライメントの検出は、しばしば必要である。
既存のUTDシステムでは、最適なハイパーパラメータはデータセットによって異なり、新しいコーパスと真に低リソースのシナリオに適用可能である。
本稿では, PDTW をベースとした UTD に対する新しい確率論的アプローチを提案する。
pdtwでは、処理されたコーパスの分布特性をアライメント品質の適応評価に利用し、偶然に期待される類似性を持つパターンペアを体系的に発見する。
我々は、2020年の実装の一環として、zero resource speech challenge 2017データセット上でpdtwをテストする。
その結果,本システムは固定ハイパーパラメータを用いた5つのテスト言語で一貫して動作し,検出されたパターンのカバレッジに関して,DTWベースのシステムよりも明らかに優れていた。
関連論文リスト
- OV-DINO: Unified Open-Vocabulary Detection with Language-Aware Selective Fusion [88.59397418187226]
我々はOV-DINOと呼ばれる新しいオープン語彙検出手法を提案する。
言語対応の選択的融合を統一フレームワークに組み込んだ、さまざまな大規模データセットで事前トレーニングされている。
提案するOV-DINOのオープン語彙検出ベンチマークにおける性能評価を行った。
論文 参考訳(メタデータ) (2024-07-10T17:05:49Z) - Fusing Dictionary Learning and Support Vector Machines for Unsupervised Anomaly Detection [1.5999407512883508]
本稿では,OC-SVMとDL残差関数を1つの合成対象に統一する新たな異常検出モデルを提案する。
両方の目的をカーネル関数の使用を可能にするより一般的な設定に拡張する。
論文 参考訳(メタデータ) (2024-04-05T12:41:53Z) - Learning the joint distribution of two sequences using little or no
paired data [16.189575655434844]
本稿では,2つのシーケンス,例えばテキストと音声のノイズチャネル生成モデルを提案する。
ペア化されたデータの少ないデータでも、大量の未ペアデータが存在する場合の2つのモダリティを関連付けるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:56:15Z) - Adaptive novelty detection with false discovery rate guarantee [1.8249324194382757]
有限標本における検出された新規性に対する偽発見率(FDR)を柔軟に制御する手法を提案する。
複数のテスト文献に触発されて、nullの割合に適応するAdaDetectの変種を提案する。
これらの手法は、天体物理学の応用を含む、合成データセットと実世界のデータセットに説明される。
論文 参考訳(メタデータ) (2022-08-13T17:14:55Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。