論文の概要: Assessing Phrase Break of ESL speech with Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2210.16029v1
- Date: Fri, 28 Oct 2022 10:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 16:59:04.097338
- Title: Assessing Phrase Break of ESL speech with Pre-trained Language Models
- Title(参考訳): 事前学習言語モデルを用いたESL音声のフレーズ分割の評価
- Authors: Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia
- Abstract要約: 本研究は,事前学習言語モデル(PLM)を用いたESL学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の手法とは異なり、この提案では音声をトークンシーケンスに変換し、PLMのパワーを活用する。
- 参考スコア(独自算出の注目度): 6.635783609515407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work introduces an approach to assessing phrase break in ESL learners'
speech with pre-trained language models (PLMs). Different with traditional
methods, this proposal converts speech to token sequences, and then leverages
the power of PLMs. There are two sub-tasks: overall assessment of phrase break
for a speech clip; fine-grained assessment of every possible phrase break
position. Speech input is first force-aligned with texts, then pre-processed to
a token sequence, including words and associated phrase break information. The
token sequence is then fed into the pre-training and fine-tuning pipeline. In
pre-training, a replaced break token detection module is trained with token
data where each token has a certain percentage chance to be randomly replaced.
In fine-tuning, overall and fine-grained scoring are optimized with text
classification and sequence labeling pipeline, respectively. With the
introduction of PLMs, the dependence on labeled training data has been greatly
reduced, and performance has improved.
- Abstract(参考訳): 本稿では,事前学習型言語モデル(plm)を用いたesl学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の方法とは異なり、この提案は音声をトークン列に変換し、plmのパワーを活用する。
2つのサブタスクがある: 音声クリップにおけるフレーズブレークの全体的な評価、あらゆる可能なフレーズブレーク位置のきめ細かい評価。
音声入力はまずテキストと強制的に一致し、次に単語や関連する句ブレーク情報を含むトークンシーケンスに前処理される。
トークンシーケンスは、事前トレーニングおよび微調整パイプラインに入力される。
事前トレーニングにおいて、交換されたブレークトークン検出モジュールは、各トークンがランダムに置き換えられる一定のパーセンテージの確率を持つトークンデータで訓練される。
微調整では、全体的なスコアリングと微粒度スコアリングをそれぞれテキスト分類とシーケンスラベリングパイプラインで最適化する。
PLMの導入により、ラベル付きトレーニングデータへの依存が大幅に減少し、性能が向上した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models [7.782346535009883]
本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T07:10:39Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in
End-to-End Speech-to-Intent Systems [31.18865184576272]
この作業は、音声の埋め込みとBERTの埋め込みをトークン単位で整列させる、ずっと効率的できめ細かな方法で、これを行うためのステップです。
音声エンコーダからトークンレベルのコンテキスト埋め込みを抽出するために,クロスモーダルアテンション機構を用いた,シンプルながら斬新な手法を提案する。
音声を用いて意図認識を行うための事前訓練モデルの微調整により、2つの広く使用されているSLUデータセット上での最先端の性能が直接得られる。
論文 参考訳(メタデータ) (2022-04-11T15:24:25Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。