論文の概要: Joint prediction of truecasing and punctuation for conversational speech
in low-resource scenarios
- arxiv url: http://arxiv.org/abs/2109.06103v1
- Date: Mon, 13 Sep 2021 16:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:04:30.375057
- Title: Joint prediction of truecasing and punctuation for conversational speech
in low-resource scenarios
- Title(参考訳): 低リソースシナリオにおける会話音声の真偽と句読点の同時予測
- Authors: Raghavendra Pappagari, Piotr \.Zelasko, Agnieszka Miko{\l}ajczyk,
Piotr P\k{e}zik, Najim Dehak
- Abstract要約: 資本化と句読は、文章や会話の書き起こしを理解するための重要な手がかりである。
多くのASRシステムは、句読点とケースフォーマットの音声書き起こしを生成していない。
本稿では,ケーシングと句読点の関係を利用して予測性能を向上させるマルチタスクシステムを提案する。
- 参考スコア(独自算出の注目度): 33.52961239281893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capitalization and punctuation are important cues for comprehending written
texts and conversational transcripts. Yet, many ASR systems do not produce
punctuated and case-formatted speech transcripts. We propose to use a
multi-task system that can exploit the relations between casing and punctuation
to improve their prediction performance. Whereas text data for predicting
punctuation and truecasing is seemingly abundant, we argue that written text
resources are inadequate as training data for conversational models. We
quantify the mismatch between written and conversational text domains by
comparing the joint distributions of punctuation and word cases, and by testing
our model cross-domain. Further, we show that by training the model in the
written text domain and then transfer learning to conversations, we can achieve
reasonable performance with less data.
- Abstract(参考訳): 文字と会話の書き起こしを理解する上で、大文字化と句読化は重要な手がかりである。
しかし、多くのasrシステムは、句読や大文字の書き起こしを生成しない。
本研究では,ケーシングと句読点の関係を利用して予測性能を向上させるマルチタスクシステムを提案する。
句読点と真偽を予測するためのテキストデータは豊富であるように思われるが、テキストリソースは会話モデルのためのトレーニングデータとして不十分である。
文と会話のテキストドメイン間のミスマッチを、句読点と単語ケースの連接分布を比較し、モデルのクロスドメインをテストすることによって定量化する。
さらに,テキスト領域でモデルをトレーニングし,会話に学習を移すことで,少ないデータで合理的な性能が得られることを示す。
関連論文リスト
- Can Authorship Attribution Models Distinguish Speakers in Speech Transcripts? [4.148732457277201]
オーサシップ検証は、2つの異なる書き込みサンプルが同じ著者を共有するかどうかを決定するタスクである。
本稿では,新たな課題を提起する書き起こし音声の属性について考察する。
そこで本研究では,人間が書き起こした会話音声の書き起こしに焦点をあてた話者属性のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-11-13T18:54:17Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - Improving Punctuation Restoration for Speech Transcripts via External
Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
論文 参考訳(メタデータ) (2021-10-01T17:40:55Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。