論文の概要: Grammatical Error Correction for Low-Resource Languages: The Case of Zarma
- arxiv url: http://arxiv.org/abs/2410.15539v1
- Date: Sun, 20 Oct 2024 23:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:20:45.548013
- Title: Grammatical Error Correction for Low-Resource Languages: The Case of Zarma
- Title(参考訳): 低リソース言語に対する文法的誤り訂正:Zarmaの場合
- Authors: Mamadou K. Keita, Christopher Homan, Sofiane Abdoulaye Hamani, Adwoa Bremang, Marcos Zampieri, Habibatou Abdoulaye Alfari, Elysabhete Amadou Ibrahim, Dennis Owusu,
- Abstract要約: 文法的誤り訂正(GEC)は、Zarmaのような低リソース言語のために書かれた材料を改善するために重要である。
本研究では,Zarma における GEC のためのルールベース手法,機械翻訳 (MT) モデル,および大規模言語モデル (LLM) を比較した。
- 参考スコア(独自算出の注目度): 8.057796934109938
- License:
- Abstract: Grammatical error correction (GEC) is important for improving written materials for low-resource languages like Zarma -- spoken by over 5 million people in West Africa. Yet it remains a challenging problem. This study compares rule-based methods, machine translation (MT) models, and large language models (LLMs) for GEC in Zarma. We evaluate each approach's effectiveness on our manually-built dataset of over 250,000 examples using synthetic and human-annotated data. Our experiments show that the MT-based approach using the M2M100 model outperforms others, achieving a detection rate of 95.82% and a suggestion accuracy of 78.90% in automatic evaluations, and scoring 3.0 out of 5.0 in logical/grammar error correction during MEs by native speakers. The rule-based method achieved perfect detection (100%) and high suggestion accuracy (96.27%) for spelling corrections but struggled with context-level errors. LLMs like MT5-small showed moderate performance with a detection rate of 90.62% and a suggestion accuracy of 57.15%. Our work highlights the potential of MT models to enhance GEC in low-resource languages, paving the way for more inclusive NLP tools.
- Abstract(参考訳): 文法的誤り訂正(GEC)は、西アフリカで500万人以上が話していた、Zarmaのような低リソース言語向けの資料の改善に重要である。
しかし、これは依然として難しい問題だ。
本研究では,Zarma における GEC のためのルールベース手法,機械翻訳 (MT) モデル,および大規模言語モデル (LLM) を比較した。
人工的および人為的注釈付きデータを用いて,手作業で作成した25万以上のサンプルデータセットに対して,それぞれのアプローチの有効性を評価する。
実験の結果,M2M100モデルを用いたMT法では, 検出率95.82%, 提案精度78.90%, ネイティブ話者によるMESにおける論理・文法誤差補正では5.0点中3.0点が他より優れていた。
この法則に基づく手法は、スペル修正には完全な検出(100%)と高い提案精度(96.27%)を達成したが、文脈レベルの誤りに悩まされた。
MT5-smallのようなLLMは、検出率90.62%、提案精度57.15%の適度な性能を示した。
我々の研究は、低リソース言語におけるGECを強化するMTモデルの可能性を強調し、より包括的なNLPツールの道を開いた。
関連論文リスト
- End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。
約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-19T11:46:30Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Benchmarks Underestimate the Readiness of Multi-lingual Dialogue Agents [39.92509218078164]
テキスト内学習が多言語TODに取り組むのに十分であることを示す。
我々は、中国語、英語、フランス語、韓国語、ヒンディー語、およびコードミキシングされたヒンディー語に12のドメインを持つ多言語TODデータセットX-RiSAWOZのアプローチを検証した。
論文 参考訳(メタデータ) (2024-05-28T05:33:13Z) - AraSpell: A Deep Learning Approach for Arabic Spelling Correction [0.0]
AraSpellは、異なるSeq2seqモデルアーキテクチャを用いたアラビア文字の綴り補正のためのフレームワークである。
690万件以上のアラビア語の文で訓練された。
論文 参考訳(メタデータ) (2024-05-11T10:36:28Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Assessing the Efficacy of Grammar Error Correction: A Human Evaluation
Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。
自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。
その結果、精度は63.66%、リコールは20.19%であった。
論文 参考訳(メタデータ) (2024-02-28T06:43:43Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。