論文の概要: Unsupervised Spoken Term Discovery Based on Re-clustering of
Hypothesized Speech Segments with Siamese and Triplet Networks
- arxiv url: http://arxiv.org/abs/2011.14062v2
- Date: Wed, 2 Jun 2021 21:06:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 19:49:18.385387
- Title: Unsupervised Spoken Term Discovery Based on Re-clustering of
Hypothesized Speech Segments with Siamese and Triplet Networks
- Title(参考訳): siamese と triplet network を用いた仮説音声セグメントの再クラスタ化に基づく教師なし音声単語発見
- Authors: Man-Ling Sung, Tan Lee
- Abstract要約: 本稿では,初期仮説列クラスタからトレーニング例を生成することを提案する。
Siamese/Tripletネットワークは、2つの音声セグメント間の類似度を測定するために、仮説上の例に基づいて訓練される。
- 参考スコア(独自算出の注目度): 35.2633450287549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken term discovery from untranscribed speech audio could be achieved via a
two-stage process. In the first stage, the unlabelled speech is decoded into a
sequence of subword units that are learned and modelled in an unsupervised
manner. In the second stage, partial sequence matching and clustering are
performed on the decoded subword sequences, resulting in a set of discovered
words or phrases. A limitation of this approach is that the results of subword
decoding could be erroneous, and the errors would impact the subsequent steps.
While Siamese/Triplet network is one approach to learn segment representations
that can improve the discovery process, the challenge in spoken term discovery
under a complete unsupervised scenario is that training examples are
unavailable. In this paper, we propose to generate training examples from
initial hypothesized sequence clusters. The Siamese/Triplet network is trained
on the hypothesized examples to measure the similarity between two speech
segments and hereby perform re-clustering of all hypothesized subword sequences
to achieve spoken term discovery. Experimental results show that the proposed
approach is effective in obtaining training examples for Siamese and Triplet
networks, improving the efficacy of spoken term discovery as compared with the
original two-stage method.
- Abstract(参考訳): 書き起こされていない音声からの音声の発見は、2段階のプロセスで行うことができる。
第1段階では、ラベルなしの音声は、教師なしの方法で学習されモデル化される一連のサブワード単位に復号される。
第2段階では、復号されたサブワードシーケンス上で部分シーケンスマッチングとクラスタリングを行い、検出された単語またはフレーズのセットを生成する。
このアプローチの限界は、サブワード復号の結果が誤っており、エラーがその後のステップに影響を与えることである。
Siamese/Tripletネットワークは、発見プロセスを改善するセグメント表現を学習するための1つのアプローチであるが、完全な教師なしシナリオ下での音声語発見の課題は、トレーニング例が利用できないことである。
本稿では,初期仮説列クラスタからトレーニング例を生成することを提案する。
siamese/tripletネットワークは、2つの音声セグメント間の類似度を測定するために仮定された例に基づいて訓練され、ここで仮定された全てのサブワードシーケンスを再クラスタ化し、話し言葉の発見を達成する。
実験の結果,本手法はシャム語と三重項ネットワークの訓練例を得るのに有効であり,従来の二段法に比べて発話項発見の有効性が向上した。
関連論文リスト
- Open-Vocabulary Segmentation with Semantic-Assisted Calibration [73.39366775301382]
オープンボキャブラリセグメンテーション(OVS)は,CLIPの文脈に先行して,語彙内およびドメインバイアスの埋め込み空間を校正することで研究される。
オープン語彙セグメンテーションベンチマークにおける最先端性能を実現するために,セマンティック・アシブ・キャリブレーション・ネットワーク(SCAN)を提案する。
論文 参考訳(メタデータ) (2023-12-07T07:00:09Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards Neural Diarization for Unlimited Numbers of Speakers Using
Global and Local Attractors [51.01295414889487]
本稿では,アトラクタをベースとしたエンドツーエンドダイアリゼーションに,教師なしクラスタリングプロセスを導入する。
提案手法はCALLHOME, DIHARD II, DIHARD IIIデータセットで11.84 %, 28.33 %, 19.49 %を達成した。
論文 参考訳(メタデータ) (2021-07-04T05:34:21Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Three-class Overlapped Speech Detection using a Convolutional Recurrent
Neural Network [32.59704287230343]
提案手法は,非音声,単一話者発話,重複発話の3つのクラスに分類できる。
畳み込み型リカレントニューラルネットワークアーキテクチャは、畳み込み層がローカルパターンをモデル化する能力と、シーケンシャルな情報をモデル化するリカレント層の能力の両方の恩恵を受けるために研究されている。
提案した重畳重畳音声検出モデルは,DIHARD II評価セット上での精度0.6648,リコール0.3222で最先端の性能を確立する。
論文 参考訳(メタデータ) (2021-04-07T03:01:34Z) - Extending Multi-Sense Word Embedding to Phrases and Sentences for
Unsupervised Semantic Applications [34.71597411512625]
本稿では,テキスト列(句または文)に対して,それぞれのシーケンスをコードブック埋め込みの異なる集合で表現する新しい埋め込み手法を提案する。
提案手法は,教師なし文の類似性と抽出要約ベンチマークの性能を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-29T04:54:28Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Acoustic Word Embedding System for Code-Switching Query-by-example
Spoken Term Detection [17.54377669932433]
本稿では,音声単語検出の例によるコードスイッチングクエリにディープ畳み込みニューラルネットワークを用いた音響単語埋め込みシステムを提案する。
1つの言語だけを使うのではなく、2つの言語でオーディオデータを組み合わせてトレーニングします。
論文 参考訳(メタデータ) (2020-05-24T15:27:56Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。