論文の概要: End-to-End Spoken Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2506.18532v1
- Date: Mon, 23 Jun 2025 11:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.959094
- Title: End-to-End Spoken Grammatical Error Correction
- Title(参考訳): 終端から終端までの文法的誤り訂正
- Authors: Mengjie Qian, Rao Ma, Stefano Bannò, Mark J. F. Gales, Kate M. Knill,
- Abstract要約: 文法的誤り訂正(GEC)とフィードバックは、第二言語(L2)学習者、教育者、検査者を支援する上で重要な役割を果たす。
GECは十分に確立されているが、音声GEC(SGEC)は、相違、転写エラー、構造化された入力の欠如などにより、さらなる課題を提起する。
本研究は,SGECとフィードバック生成のためのEnd-to-End(E2E)フレームワークについて検討し,課題と実現可能なソリューションを明らかにする。
- 参考スコア(独自算出の注目度): 33.116296120680296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammatical Error Correction (GEC) and feedback play a vital role in supporting second language (L2) learners, educators, and examiners. While written GEC is well-established, spoken GEC (SGEC), aiming to provide feedback based on learners' speech, poses additional challenges due to disfluencies, transcription errors, and the lack of structured input. SGEC systems typically follow a cascaded pipeline consisting of Automatic Speech Recognition (ASR), disfluency detection, and GEC, making them vulnerable to error propagation across modules. This work examines an End-to-End (E2E) framework for SGEC and feedback generation, highlighting challenges and possible solutions when developing these systems. Cascaded, partial-cascaded and E2E architectures are compared, all built on the Whisper foundation model. A challenge for E2E systems is the scarcity of GEC labeled spoken data. To address this, an automatic pseudo-labeling framework is examined, increasing the training data from 77 to over 2500 hours. To improve the accuracy of the SGEC system, additional contextual information, exploiting the ASR output, is investigated. Candidate feedback of their mistakes is an essential step to improving performance. In E2E systems the SGEC output must be compared with an estimate of the fluent transcription to obtain the feedback. To improve the precision of this feedback, a novel reference alignment process is proposed that aims to remove hypothesised edits that results from fluent transcription errors. Finally, these approaches are combined with an edit confidence estimation approach, to exclude low-confidence edits. Experiments on the in-house Linguaskill (LNG) corpora and the publicly available Speak & Improve (S&I) corpus show that the proposed approaches significantly boost E2E SGEC performance.
- Abstract(参考訳): 文法的誤り訂正(GEC)とフィードバックは、第二言語(L2)学習者、教育者、検査者を支援する上で重要な役割を果たす。
書き言葉のGEC(SGEC)は,学習者の発話に基づくフィードバックの提供を目標とし,誤りや書き起こし誤り,構造化された入力の欠如などにより,さらなる課題を提起する。
SGECシステムは通常、自動音声認識(ASR)、拡散検出(英語版)、GECで構成されるカスケードパイプラインに従い、モジュール間のエラー伝搬に脆弱である。
本研究では,SGEC とフィードバック生成のための End-to-End (E2E) フレームワークについて検討し,これらのシステムを開発する際の課題と解決策を明らかにする。
カスケード、部分カスケードおよびE2Eアーキテクチャを比較し、すべてWhisper基盤モデルに基づいて構築される。
E2Eシステムの課題は、GECラベル付き音声データの不足である。
これを解決するために、自動擬似ラベルフレームワークを検証し、トレーニングデータを77時間から2500時間以上に増やした。
SGECシステムの精度を向上させるため、ASR出力を利用した追加の文脈情報について検討した。
失敗に対する率直なフィードバックは、パフォーマンスを改善するための重要なステップです。
E2Eシステムでは、SGEC出力は、フィードバックを得るために流動的な転写の見積と比較されなければならない。
このフィードバックの精度を向上させるために、流布した転写誤りから生じる仮説化された編集を除去することを目的とした、新しい参照アライメントプロセスを提案する。
最後に、これらの手法と編集信頼度推定手法を組み合わせることで、低信頼度編集を除外する。
社内Lingguaskill(LNG)コーパスとSpeak & Improve(S&I)コーパスの実験により,提案手法はE2E SGECの性能を大幅に向上させることが示された。
関連論文リスト
- Scaling and Prompting for Improved End-to-End Spoken Grammatical Error Correction [33.116296120680296]
この研究は、限定ラベル付きデータの課題に対処する擬似ラベリングプロセスを導入する。
E2E Whisper-based SGEC model with fluent transcriptions, show a little improve in SGEC performance。
最後に、モデルサイズの増加による影響を評価し、擬似ラベル付きデータでは大きなWhisperモデルの性能向上は得られないが、プロンプトを用いたトレーニングは有益であることを示す。
論文 参考訳(メタデータ) (2025-05-27T12:50:53Z) - Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Robust ASR Error Correction with Conservative Data Filtering [15.833428810891427]
大規模言語モデルに基づく誤り訂正(EC)は,自動音声認識(ASR)システムの性能を向上させる新しい技術である。
本稿では,ECトレーニングデータが満足すべき2つの基本的な基準を提案する。
低品質のECペアを特定し、そのようなケースでは修正を行わないようにモデルを訓練する。
論文 参考訳(メタデータ) (2024-07-18T09:05:49Z) - Grammatical Error Correction via Mixed-Grained Weighted Training [68.94921674855621]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、自然文における文法的誤りを自動的に補正することを目的としている。
MainGECは、データアノテーションの正確性と潜在的な多様性の固有の相違に基づいて、トークンレベルおよび文レベルトレーニングウェイトを設計する。
論文 参考訳(メタデータ) (2023-11-23T08:34:37Z) - Towards End-to-End Spoken Grammatical Error Correction [33.116296120680296]
Spoken grammatical error correct (GEC) は,L2学習者に対して,発話時の文法使用に対するフィードバックの提供を目的としている。
本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T17:49:02Z) - RobustGEC: Robust Grammatical Error Correction Against Subtle Context
Perturbation [64.2568239429946]
本稿では,GECシステムのコンテキストロバスト性を評価するためのベンチマークであるRobustGECを紹介する。
現状のGECシステムには, 文脈摂動に対する十分な堅牢性がないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-11T08:33:23Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。