論文の概要: Scaling and Prompting for Improved End-to-End Spoken Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2505.21137v1
- Date: Tue, 27 May 2025 12:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.651119
- Title: Scaling and Prompting for Improved End-to-End Spoken Grammatical Error Correction
- Title(参考訳): エンド・ツー・エンドの文法的誤り訂正のためのスケーリングとプロンプト
- Authors: Mengjie Qian, Rao Ma, Stefano Bannò, Kate M. Knill, Mark J. F. Gales,
- Abstract要約: この研究は、限定ラベル付きデータの課題に対処する擬似ラベリングプロセスを導入する。
E2E Whisper-based SGEC model with fluent transcriptions, show a little improve in SGEC performance。
最後に、モデルサイズの増加による影響を評価し、擬似ラベル付きデータでは大きなWhisperモデルの性能向上は得られないが、プロンプトを用いたトレーニングは有益であることを示す。
- 参考スコア(独自算出の注目度): 33.116296120680296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Grammatical Error Correction (SGEC) and Feedback (SGECF) are crucial for second language learners, teachers and test takers. Traditional SGEC systems rely on a cascaded pipeline consisting of an ASR, a module for disfluency detection (DD) and removal and one for GEC. With the rise of end-to-end (E2E) speech foundation models, we investigate their effectiveness in SGEC and feedback generation. This work introduces a pseudo-labelling process to address the challenge of limited labelled data, expanding the training data size from 77 hours to approximately 2500 hours, leading to improved performance. Additionally, we prompt an E2E Whisper-based SGEC model with fluent transcriptions, showing a slight improvement in SGEC performance, with more significant gains in feedback generation. Finally, we assess the impact of increasing model size, revealing that while pseudo-labelled data does not yield performance gain for a larger Whisper model, training with prompts proves beneficial.
- Abstract(参考訳): 音声文法誤り訂正(SGEC)とフィードバック(SGECF)は、第二言語学習者、教師、受験者にとって不可欠である。
従来のSGECシステムは、ASR(英語版)とDD(英語版)と除去のためのモジュールと、EC(英語版)のためのモジュールからなるカスケードパイプラインに依存していた。
エンド・ツー・エンド(E2E)音声基礎モデルの台頭に伴い,SGECにおけるそれらの効果とフィードバック生成について検討する。
この研究は、ラベル付きデータ制限の課題に対処する擬似ラベリングプロセスを導入し、トレーニングデータのサイズを77時間から2500時間に拡大し、パフォーマンスを改善した。
さらに,E2E WhisperをベースとしたSGECモデルでは,SGECの性能が若干向上し,フィードバック生成が大幅に向上した。
最後に、モデルサイズの増加による影響を評価し、擬似ラベル付きデータでは大きなWhisperモデルの性能向上は得られないが、プロンプトを用いたトレーニングは有益であることを示す。
関連論文リスト
- Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency [5.1205362176467055]
我々は、若干異なる単語や構造で類似した意図を表現する連続的な発話セットである、変分集合(VS)に焦点を当てる。
トレーニングデータ効率に対するVSの影響を評価するため、人工VSの比率が異なるCDSデータを拡張し、これらのデータセットを使用して自動回帰モデルであるGPT-2をトレーニングする。
BLiMPとGLUEスコアはVSの存在から恩恵を受けるが、EWOKスコアはそうではない。
論文 参考訳(メタデータ) (2024-11-14T16:57:46Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Towards End-to-End Spoken Grammatical Error Correction [33.116296120680296]
Spoken grammatical error correct (GEC) は,L2学習者に対して,発話時の文法使用に対するフィードバックの提供を目的としている。
本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T17:49:02Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。