論文の概要: Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation
- arxiv url: http://arxiv.org/abs/2007.13465v2
- Date: Thu, 6 Aug 2020 07:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:09:55.985887
- Title: Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation
- Title(参考訳): 教師なし音素セグメンテーションのための自己教師付きコントラスト学習
- Authors: Felix Kreuk, Joseph Keshet, Yossi Adi
- Abstract要約: このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
- 参考スコア(独自算出の注目度): 37.054709598792165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a self-supervised representation learning model for the task of
unsupervised phoneme boundary detection. The model is a convolutional neural
network that operates directly on the raw waveform. It is optimized to identify
spectral changes in the signal using the Noise-Contrastive Estimation
principle. At test time, a peak detection algorithm is applied over the model
outputs to produce the final boundaries. As such, the proposed model is trained
in a fully unsupervised manner with no manual annotations in the form of target
boundaries nor phonetic transcriptions. We compare the proposed approach to
several unsupervised baselines using both TIMIT and Buckeye corpora. Results
suggest that our approach surpasses the baseline models and reaches
state-of-the-art performance on both data sets. Furthermore, we experimented
with expanding the training set with additional examples from the Librispeech
corpus. We evaluated the resulting model on distributions and languages that
were not seen during the training phase (English, Hebrew and German) and showed
that utilizing additional untranscribed data is beneficial for model
performance.
- Abstract(参考訳): 教師なし音素境界検出のための自己教師付き表現学習モデルを提案する。
このモデルは畳み込みニューラルネットワークであり、生の波形を直接操作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を識別するために最適化される。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
このように、提案モデルは完全に教師なしの方法で訓練され、ターゲット境界や音素の書き起こしという形で手動のアノテーションが存在しない。
提案手法をtimitとbuckeye corporaを用いた教師なしベースラインと比較した。
その結果,本手法はベースラインモデルを超え,両データセットの最先端性能に達することが示唆された。
さらに,librispeechコーパスから追加例を加えてトレーニングセットを拡張する実験を行った。
学習段階(英語,ヘブライ語,ドイツ語)では見られなかった分布と言語に関するモデルを評価し,さらに書き起こされていないデータを利用することがモデル性能に有益であることを示した。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Phoneme Segmentation Using Self-Supervised Speech Models [13.956691231452336]
音素セグメンテーションのタスクに伝達学習を適用し、タスクの自己教師型事前学習において学習した表現の有用性を実証する。
我々のモデルは、事前学習で学んだ特徴を操作する戦略的に配置された畳み込みによるトランスフォーマースタイルのエンコーダを拡張している。
論文 参考訳(メタデータ) (2022-11-02T19:57:31Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Improving Distantly Supervised Relation Extraction with Self-Ensemble
Noise Filtering [17.45521023572853]
本研究では,学習過程におけるノイズを除去する自己アンサンブルフィルタリング機構を提案する。
複数の最先端関係抽出モデルを用いた実験により,提案したフィルタリング機構はモデルの堅牢性を改善し,F1スコアを増加させることを示す。
論文 参考訳(メタデータ) (2021-08-22T11:23:36Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。