論文の概要: Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech
- arxiv url: http://arxiv.org/abs/2008.00702v1
- Date: Mon, 3 Aug 2020 08:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:49:27.029242
- Title: Multimodal Semi-supervised Learning Framework for Punctuation Prediction
in Conversational Speech
- Title(参考訳): 会話音声における句読点予測のためのマルチモーダル半教師付き学習フレームワーク
- Authors: Monica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati,
Katrin Kirchhoff
- Abstract要約: 句読点予測のためのマルチモーダル半教師付き学習手法について検討する。
我々は大量の音声およびテキストデータから表現を学習する。
1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
- 参考スコア(独自算出の注目度): 17.602098162338137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore a multimodal semi-supervised learning approach for
punctuation prediction by learning representations from large amounts of
unlabelled audio and text data. Conventional approaches in speech processing
typically use forced alignment to encoder per frame acoustic features to word
level features and perform multimodal fusion of the resulting acoustic and
lexical representations. As an alternative, we explore attention based
multimodal fusion and compare its performance with forced alignment based
fusion. Experiments conducted on the Fisher corpus show that our proposed
approach achieves ~6-9% and ~3-4% absolute improvement (F1 score) over the
baseline BLSTM model on reference transcripts and ASR outputs respectively. We
further improve the model robustness to ASR errors by performing data
augmentation with N-best lists which achieves up to an additional ~2-6%
improvement on ASR outputs. We also demonstrate the effectiveness of
semi-supervised learning approach by performing ablation study on various sizes
of the corpus. When trained on 1 hour of speech and text data, the proposed
model achieved ~9-18% absolute improvement over baseline model.
- Abstract(参考訳): 本研究では,大量の音声およびテキストデータから表現を学習し,句読点予測のためのマルチモーダル半教師付き学習手法を提案する。
従来の音声処理では、フレーム音響特徴を単語レベル特徴にエンコーダにエンコーダを強制的にアライメントし、その結果の音響および語彙表現のマルチモーダル融合を行う。
代替案として,注意に基づくマルチモーダル融合を探求し,その性能を強制アライメントに基づく融合と比較する。
Fisher corpus で行った実験により,提案手法は基準文字とASR出力のベースライン BLSTM モデルに対して ~6-9% と ~3-4% の絶対改善(F1スコア)を達成できた。
我々は、N-bestリストでデータ拡張を行い、ASRの出力を最大2-6%改善することで、ASRエラーに対するモデルロバスト性をさらに改善する。
また,コーパスの様々なサイズについてアブレーション研究を行い,半教師付き学習手法の有効性を示す。
1時間の音声とテキストデータでトレーニングすると、提案モデルはベースラインモデルよりも9~18%の絶対的改善を達成した。
関連論文リスト
- On the N-gram Approximation of Pre-trained Language Models [17.764803904135903]
大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。
本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。
我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
論文 参考訳(メタデータ) (2023-06-12T06:42:08Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。
基準検討と比較して, WER の 4%-12% 削減を実現している。
また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-06-29T15:30:44Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。