論文の概要: Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models
- arxiv url: http://arxiv.org/abs/2306.04980v1
- Date: Thu, 8 Jun 2023 07:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:53:19.862788
- Title: Assessing Phrase Break of ESL Speech with Pre-trained Language Models
and Large Language Models
- Title(参考訳): 事前学習言語モデルと大規模言語モデルを用いたESL音声のフレーズ分割の評価
- Authors: Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan
Tien
- Abstract要約: 本研究では,事前学習言語モデル (PLM) と大規模言語モデル (LLM) を用いて,ESL学習者の音声における句分割の評価手法を提案する。
- 参考スコア(独自算出の注目度): 7.782346535009883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces approaches to assessing phrase breaks in ESL learners'
speech using pre-trained language models (PLMs) and large language models
(LLMs). There are two tasks: overall assessment of phrase break for a speech
clip and fine-grained assessment of every possible phrase break position. To
leverage NLP models, speech input is first force-aligned with texts, and then
pre-processed into a token sequence, including words and phrase break
information. To utilize PLMs, we propose a pre-training and fine-tuning
pipeline with the processed tokens. This process includes pre-training with a
replaced break token detection module and fine-tuning with text classification
and sequence labeling. To employ LLMs, we design prompts for ChatGPT. The
experiments show that with the PLMs, the dependence on labeled training data
has been greatly reduced, and the performance has improved. Meanwhile, we
verify that ChatGPT, a renowned LLM, has potential for further advancement in
this area.
- Abstract(参考訳): 本稿では,事前学習型言語モデル (plm) と大規模言語モデル (llms) を用いて,esl学習者の発話におけるフレーズブレークの評価手法を提案する。
音声クリップのフレーズブレークの全体的な評価と、可能なすべてのフレーズブレーク位置のきめ細かい評価の2つのタスクがある。
NLPモデルを活用するために、音声入力はまずテキストと強制的に一致し、その後、単語やフレーズブレーク情報を含むトークンシーケンスに前処理される。
PLMを利用するために,処理トークンを用いた事前学習および微調整パイプラインを提案する。
このプロセスは、交換されたブレークトークン検出モジュールによる事前トレーニングと、テキスト分類とシーケンスラベリングによる微調整を含む。
LLMを採用するために、ChatGPTのプロンプトを設計する。
実験の結果, PLMではラベル付きトレーニングデータへの依存が大幅に低減され, 性能が向上した。
一方、有名なLDMであるChatGPTは、この分野のさらなる進歩の可能性を秘めている。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - BLSP: Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing [35.31866559807704]
音声とテキスト間のモダリティアライメントは 未解決の問題です
本稿では,継続文の動作アライメントによるLanguage-Speech事前学習をブートストラップするBLSP手法を提案する。
この簡単な処理により、ゼロショットの言語間シナリオであっても、音声認識、音声翻訳、音声言語理解、音声会話が可能なLLMの能力を音声に拡張できることを実証する。
論文 参考訳(メタデータ) (2023-09-02T11:46:05Z) - Assessing Phrase Break of ESL speech with Pre-trained Language Models [6.635783609515407]
本研究は,事前学習言語モデル(PLM)を用いたESL学習者の発話におけるフレーズブレークの評価手法を提案する。
従来の手法とは異なり、この提案では音声をトークンシーケンスに変換し、PLMのパワーを活用する。
論文 参考訳(メタデータ) (2022-10-28T10:06:06Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - Warped Language Models for Noise Robust Language Understanding [11.017026606760728]
Masked Language Models (MLM) は、与えられた文の空白をマスク付きトークンで埋める自己教師型ニューラルネットワークである。
本稿では,WLM上に構築された自然言語理解システムが,対話型言語よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:26:28Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。