Fugu-MT 論文翻訳(概要): Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech

論文の概要: Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech

arxiv url: http://arxiv.org/abs/2008.00702v1
Date: Mon, 3 Aug 2020 08:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-03 06:49:27.029242
Title: Multimodal Semi-supervised Learning Framework for Punctuation Prediction in Conversational Speech
Title（参考訳）: 会話音声における句読点予測のためのマルチモーダル半教師付き学習フレームワーク
Authors: Monica Sunkara, Srikanth Ronanki, Dhanush Bekal, Sravan Bodapati, Katrin Kirchhoff
Abstract要約: 句読点予測のためのマルチモーダル半教師付き学習手法について検討する。我々は大量の音声およびテキストデータから表現を学習する。 1時間分の音声とテキストデータをトレーニングすると、ベースラインモデルよりも9-18%の絶対的な改善が得られた。
参考スコア（独自算出の注目度）: 17.602098162338137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we explore a multimodal semi-supervised learning approach for punctuation prediction by learning representations from large amounts of unlabelled audio and text data. Conventional approaches in speech processing typically use forced alignment to encoder per frame acoustic features to word level features and perform multimodal fusion of the resulting acoustic and lexical representations. As an alternative, we explore attention based multimodal fusion and compare its performance with forced alignment based fusion. Experiments conducted on the Fisher corpus show that our proposed approach achieves ~6-9% and ~3-4% absolute improvement (F1 score) over the baseline BLSTM model on reference transcripts and ASR outputs respectively. We further improve the model robustness to ASR errors by performing data augmentation with N-best lists which achieves up to an additional ~2-6% improvement on ASR outputs. We also demonstrate the effectiveness of semi-supervised learning approach by performing ablation study on various sizes of the corpus. When trained on 1 hour of speech and text data, the proposed model achieved ~9-18% absolute improvement over baseline model.
Abstract（参考訳）: 本研究では,大量の音声およびテキストデータから表現を学習し,句読点予測のためのマルチモーダル半教師付き学習手法を提案する。従来の音声処理では、フレーム音響特徴を単語レベル特徴にエンコーダにエンコーダを強制的にアライメントし、その結果の音響および語彙表現のマルチモーダル融合を行う。代替案として,注意に基づくマルチモーダル融合を探求し,その性能を強制アライメントに基づく融合と比較する。 Fisher corpus で行った実験により,提案手法は基準文字とASR出力のベースライン BLSTM モデルに対して ~6-9% と ~3-4% の絶対改善(F1スコア)を達成できた。我々は、N-bestリストでデータ拡張を行い、ASRの出力を最大2-6%改善することで、ASRエラーに対するモデルロバスト性をさらに改善する。また,コーパスの様々なサイズについてアブレーション研究を行い,半教師付き学習手法の有効性を示す。 1時間の音声とテキストデータでトレーニングすると、提案モデルはベースラインモデルよりも9～18%の絶対的改善を達成した。

関連論文リスト

Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
On the N-gram Approximation of Pre-trained Language Models [17.764803904135903]
大規模事前学習型言語モデル(PLM)は、様々な自然言語理解(NLU)タスクにおいて顕著な性能を示している。本研究では,自動音声認識(ASR)における言語モデリングにおけるPLMの有用性について検討する。我々は,GPT-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用について比較した。
論文参考訳（メタデータ） (2023-06-12T06:42:08Z)
Improving Deliberation by Text-Only and Semi-Supervised Training [42.942428288428836]
本稿では,テキストのみによる半教師付きトレーニングを,注意に基づく検討モデルに取り入れることを提案する。基準検討と比較して, WER の 4%-12% 削減を実現している。また, 検討モデルにより, 肯定的な評価がもたらされることが示唆された。
論文参考訳（メタデータ） (2022-06-29T15:30:44Z)
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文参考訳（メタデータ） (2022-04-05T07:02:53Z)
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。 WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文参考訳（メタデータ） (2022-03-31T06:39:14Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。