論文の概要: Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings
- arxiv url: http://arxiv.org/abs/2007.00183v2
- Date: Tue, 24 Nov 2020 17:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 23:39:09.976032
- Title: Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings
- Title(参考訳): 音響単語埋め込みを用いた全単語セグメント音声認識
- Authors: Bowen Shi, Shane Settle, Karen Livescu
- Abstract要約: 本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
- 参考スコア(独自算出の注目度): 28.04666950237383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmental models are sequence prediction models in which scores of hypotheses
are based on entire variable-length segments of frames. We consider segmental
models for whole-word ("acoustic-to-word") speech recognition, with the feature
vectors defined using vector embeddings of segments. Such models are
computationally challenging as the number of paths is proportional to the
vocabulary size, which can be orders of magnitude larger than when using
subword units like phones. We describe an efficient approach for end-to-end
whole-word segmental models, with forward-backward and Viterbi decoding
performed on a GPU and a simple segment scoring function that reduces space
complexity. In addition, we investigate the use of pre-training via jointly
trained acoustic word embeddings (AWEs) and acoustically grounded word
embeddings (AGWEs) of written word labels. We find that word error rate can be
reduced by a large margin by pre-training the acoustic segment representation
with AWEs, and additional (smaller) gains can be obtained by pre-training the
word prediction layer with AGWEs. Our final models improve over prior A2W
models.
- Abstract(参考訳): セグメントモデルは、仮説のスコアがフレームの全可変長セグメントに基づいているシーケンス予測モデルである。
セグメントのベクトル埋め込みを用いて特徴ベクトルを定義することにより,単語全体(単語間音響)音声認識のためのセグメンテーションモデルを検討する。
このようなモデルは、電話のようなサブワード単位を使用する場合よりも桁違いの大きさの語彙サイズに比例するので、計算的に困難である。
本稿では、GPU上で前向きおよびビタビ復号化を行い、空間の複雑さを低減した単純なセグメントスコアリング機能を備えた、エンドツーエンドの単語セグメントモデルの効率的なアプローチについて述べる。
さらに,共同学習された音声単語埋め込み(AWEs)と書き言葉ラベルの音響的接地単語埋め込み(AGWEs)による事前学習の利用について検討した。
AWEの音響セグメント表現を事前学習することで単語誤り率を大幅に減らすことができ、AGWEの単語予測層を事前学習することで、さらに(より小さい)ゲインを得ることができる。
最終モデルは以前のa2wモデルよりも改善されました。
関連論文リスト
- Revisiting speech segmentation and lexicon learning with better features [29.268728666438495]
我々は,未学習の音声を単語のようなセグメントに分割する自己教師型手法を再検討する。
まず,2段階の持続時間ペン化動的プログラミング法から始める。
第1の音響ユニット発見段階では、コントラスト予測符号を HuBERT に置き換える。
第2段階における単語セグメンテーションの後,HuBERT特徴量の平均化により,各セグメントに音響単語を埋め込む。
論文 参考訳(メタデータ) (2024-01-31T15:06:34Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。