論文の概要: Automatic Correction of Writing Anomalies in Hausa Texts
- arxiv url: http://arxiv.org/abs/2506.03820v1
- Date: Wed, 04 Jun 2025 10:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.291411
- Title: Automatic Correction of Writing Anomalies in Hausa Texts
- Title(参考訳): ハウサテキストにおける書字異常の自動補正
- Authors: Ahmad Mustapha Wali, Sergiu Nisioi,
- Abstract要約: ハウサ文字はしばしば、誤字置換やスペーシングエラーなどの異常を書くことで特徴づけられる。
本稿では,変圧器モデルを用いて異常を自動的に修正する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hausa texts are often characterized by writing anomalies such as incorrect character substitutions and spacing errors, which sometimes hinder natural language processing (NLP) applications. This paper presents an approach to automatically correct the anomalies by finetuning transformer-based models. Using a corpus gathered from several public sources, we created a large-scale parallel dataset of over 450,000 noisy-clean Hausa sentence pairs by introducing synthetically generated noise, fine-tuned to mimic realistic writing errors. Moreover, we adapted several multilingual and African language-focused models, including M2M100, AfriTEVA, mBART, and Opus-MT variants for this correction task using SentencePiece tokenization. Our experimental results demonstrate significant increases in F1, BLEU and METEOR scores, as well as reductions in Character Error Rate (CER) and Word Error Rate (WER). This research provides a robust methodology, a publicly available dataset, and effective models to improve Hausa text quality, thereby advancing NLP capabilities for the language and offering transferable insights for other low-resource languages.
- Abstract(参考訳): Hausaテキストは、しばしば不正な文字置換やスペーシングエラーなどの異常を書くことで特徴づけられ、自然言語処理(NLP)の応用を妨げることがある。
本稿では,変圧器モデルを用いて異常を自動的に修正する手法を提案する。
複数の公開資料から収集したコーパスを用いて,実写の誤りを模倣するために微調整された合成ノイズを導入し,45万以上のノイズクリーンなハウサ文ペアからなる大規模並列データセットを作成した。
さらに,M2M100,AfriTEVA,mBART,Opus-MTなどの多言語・アフリカ語対応モデルをSentencePieceトークン化を用いて適応した。
実験の結果,F1,BLEU,METEORが有意に増加し,文字誤り率(CER)と単語誤り率(WER)が低下した。
この研究は、堅牢な方法論、公開可能なデータセット、およびHausaのテキスト品質を改善する効果的なモデルを提供し、それによって言語のためのNLP能力を向上し、他の低リソース言語に伝達可能な洞察を提供する。
関連論文リスト
- Detecting Spelling and Grammatical Anomalies in Russian Poetry Texts [0.0]
微調整データセットにおける自然言語テキストの品質は、生成モデルの性能において重要な役割を果たす。
本稿では,学習データセットから低品質テキストを識別・フィルタリングするための自動言語異常検出手法を提案する。
私たちの研究は、創造的なドメインにおける生成モデルのためのデータセットのトレーニング品質を改善するためのツールと洞察をコミュニティに提供することを目的としています。
論文 参考訳(メタデータ) (2025-05-07T15:27:59Z) - Tgea: An error-annotated dataset and benchmark tasks for text generation from pretrained language models [57.758735361535486]
TGEAは、事前訓練された言語モデル(PLM)からテキストを生成するためのエラーアノテートデータセットである。
PLM生成文で発生する24種類の誤りを網羅する誤り分類を作成する。
PLM生成テキストに対する包括的なアノテーションを備えた最初のデータセットである。
論文 参考訳(メタデータ) (2025-03-06T09:14:02Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Improving Speech Recognition for Indic Languages using Language Model [0.0]
本稿では,言語モデル(LM)の適用が,インデックス言語の自動音声認識(ASR)システムの出力に与える影響について検討する。
We fine-tune wav2vec $2.0$ models for 18$ Indic languages and adjust the formula with language model training on text from various sources。
論文 参考訳(メタデータ) (2022-03-30T18:22:12Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。