論文の概要: Improving Punctuation Restoration for Speech Transcripts via External
Data
- arxiv url: http://arxiv.org/abs/2110.00560v1
- Date: Fri, 1 Oct 2021 17:40:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:36:43.526487
- Title: Improving Punctuation Restoration for Speech Transcripts via External
Data
- Title(参考訳): 外部データによる音声書き起こしの句読点復元の改善
- Authors: Xue-Yong Fu, Cheng Chen, Md Tahmid Rahman Laskar, Shashi Bhushan TN,
Simon Corston-Oliver
- Abstract要約: ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
- 参考スコア(独自算出の注目度): 1.4335946386597276
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) systems generally do not produce
punctuated transcripts. To make transcripts more readable and follow the
expected input format for downstream language models, it is necessary to add
punctuation marks. In this paper, we tackle the punctuation restoration problem
specifically for the noisy text (e.g., phone conversation scenarios). To
leverage the available written text datasets, we introduce a data sampling
technique based on an n-gram language model to sample more training data that
are similar to our in-domain data. Moreover, we propose a two-stage fine-tuning
approach that utilizes the sampled external data as well as our in-domain
dataset for models based on BERT. Extensive experiments show that the proposed
approach outperforms the baseline with an improvement of 1:12% F1 score.
- Abstract(参考訳): 自動音声認識(ASR)システムは通常、句読点を生成しない。
書き起こしをより読みやすくし、下流言語モデルに期待される入力形式に従うためには、句読点を追加する必要がある。
本稿では,雑音のあるテキスト(例えば,電話会話のシナリオ)の句読解問題に対処する。
利用可能なテキストデータセットを活用するために,n-gram言語モデルに基づくデータサンプリング手法を導入し,ドメイン内のデータに類似したトレーニングデータをより多くサンプリングする。
さらに,サンプルした外部データとbertに基づくモデルに対するドメイン内データセットを利用する2段階の微調整手法を提案する。
実験の結果,提案手法は1:12%のF1スコアでベースラインを上回った。
関連論文リスト
- Spontaneous Informal Speech Dataset for Punctuation Restoration [0.8517406772939293]
SponSpeechは、非公式な音声ソースから派生した句読点復元データセットである。
フィルタリングパイプラインは,音声と文字起こしの双方の品質について検討する。
我々はまた、他の文法的に曖昧な句読点を予測するために、音声情報を活用するモデルの能力を評価することを目的とした、挑戦的なテストセットを慎重に構築する。
論文 参考訳(メタデータ) (2024-09-17T14:43:14Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Leverage Unlabeled Data for Abstractive Speech Summarization with
Self-Supervised Learning and Back-Summarization [6.465251961564605]
神経抽象的要約のための改良されたアプローチは、構築にコストがかかる大きな注釈付きコーパスを必要とする。
本稿では,ミーティング音声記録の自動書き起こしに基づいて,レポートが予測される,フランスの会議要約タスクを提案する。
本報告では,2つの評価セットの両アプローチのベースラインに対して,以前のベースラインと比較して大きな改善点を報告した。
論文 参考訳(メタデータ) (2020-07-30T08:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。