論文の概要: Data Augmentation for Spoken Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2507.19374v1
- Date: Fri, 25 Jul 2025 15:25:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.020615
- Title: Data Augmentation for Spoken Grammatical Error Correction
- Title(参考訳): 音声の文法的誤り訂正のためのデータ拡張
- Authors: Penny Karanasou, Mengjie Qian, Stefano Bannò, Mark J. F. Gales, Kate M. Knill,
- Abstract要約: 本稿では,文法的誤りと不一致を伴う音声テキストペアを生成する完全自動化手法を提案する。
S&I Corpusは文法エラーアノテーションを付加した最初の公開音声データセットである。
- 参考スコア(独自算出の注目度): 33.192165163181315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there exist strong benchmark datasets for grammatical error correction (GEC), high-quality annotated spoken datasets for Spoken GEC (SGEC) are still under-resourced. In this paper, we propose a fully automated method to generate audio-text pairs with grammatical errors and disfluencies. Moreover, we propose a series of objective metrics that can be used to evaluate the generated data and choose the more suitable dataset for SGEC. The goal is to generate an augmented dataset that maintains the textual and acoustic characteristics of the original data while providing new types of errors. This augmented dataset should augment and enrich the original corpus without altering the language assessment scores of the second language (L2) learners. We evaluate the use of the augmented corpus both for written GEC (the text part) and for SGEC (the audio-text pairs). Our experiments are conducted on the S\&I Corpus, the first publicly available speech dataset with grammar error annotations.
- Abstract(参考訳): 文法的誤り訂正(GEC)のための強力なベンチマークデータセットが存在するが、Spken GEC(SGEC)のための高品質なアノテートされた音声データセットは、まだ未公開である。
本稿では,文法的誤りと不一致を伴う音声テキストペアを生成する完全自動化手法を提案する。
さらに、生成したデータの評価やSGECのより適切なデータセットの選択に使用できる一連の客観的指標を提案する。
目標は、新しいタイプのエラーを提供しながら、元のデータのテキスト的および音響的特性を維持する拡張データセットを作成することである。
この拡張データセットは、第2言語(L2)学習者の言語評価スコアを変更することなく、元のコーパスを増強し、強化する。
GEC (テキスト部分) と SGEC (音声テキストペア) の両方において, 拡張コーパスの有用性を評価した。
本実験は,文法エラーアノテーションを付加した最初の公開音声データセットであるS\&I Corpusを用いて行った。
関連論文リスト
- Enhanced Hybrid Transducer and Attention Encoder Decoder with Text Data [10.662138902171497]
共同トランスデューサとアテンションベースエンコーダデコーダ(TAED)モデルを提案し,大量のテキストコーパスを活用し,ASR精度を向上させる。
実験の結果、J-TAEDは音声と言語情報を一つのモデルに統合し、WERを5.812.8%減らすことに成功した。
論文 参考訳(メタデータ) (2025-06-23T21:51:39Z) - Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction [6.220415006158471]
そこで我々はChatLang-8という文法的誤り訂正タスクのための新しいデータセットを提案する。
ChatLang-8は、人間に似た文法エラーを特徴とする100万対で構成されている。
GECデータセットの代わりにChatLang-8を使用する場合のモデル性能の改善を観察する。
論文 参考訳(メタデータ) (2024-06-05T12:35:00Z) - Towards End-to-End Spoken Grammatical Error Correction [33.116296120680296]
Spoken grammatical error correct (GEC) は,L2学習者に対して,発話時の文法使用に対するフィードバックの提供を目的としている。
本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T17:49:02Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - GECTurk: Grammatical Error Correction and Detection Dataset for Turkish [1.804922416527064]
文法的誤り検出・訂正(GEC)ツールは、母語話者と第二言語学習者にとって有用であることが証明されている。
合成データ生成は、そのようなデータの不足を克服するための一般的なプラクティスである。
トルコ語のためのフレキシブルで総合的なデータ生成パイプラインを提案し、20以上の専門家による文法と綴り規則をカバーしている。
論文 参考訳(メタデータ) (2023-09-20T14:25:44Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文 参考訳(メタデータ) (2021-12-15T20:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。