論文の概要: ArbESC+: Arabic Enhanced Edit Selection System Combination for Grammatical Error Correction Resolving conflict and improving system combination in Arabic GEC
- arxiv url: http://arxiv.org/abs/2511.14230v1
- Date: Tue, 18 Nov 2025 08:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.004873
- Title: ArbESC+: Arabic Enhanced Edit Selection System Combination for Grammatical Error Correction Resolving conflict and improving system combination in Arabic GEC
- Title(参考訳): ArbESC+: アラビア語による文法的誤り訂正のための編集選択システムの組み合わせ アラビア語 GECにおける競合の解消とシステム結合の改善
- Authors: Ahlam Alrehili, Areej Alhothali,
- Abstract要約: アラビア語の文法的誤りを修正するための,最初のマルチシステムアプローチの1つを提示する。
AraT5、BYT5、mT5、AraBART、AraBART+Morph+GEC、テキスト編集システムの組み合わせは単一のモデルよりも優れた結果を得た。
- 参考スコア(独自算出の注目度): 0.8643249539674613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grammatical Error Correction (GEC) is an important aspect of natural language processing. Arabic has a complicated morphological and syntactic structure, posing a greater challenge than other languages. Even though modern neural models have improved greatly in recent years, the majority of previous attempts used individual models without taking into account the potential benefits of combining different systems. In this paper, we present one of the first multi-system approaches for correcting grammatical errors in Arabic, the Arab Enhanced Edit Selection System Complication (ArbESC+). Several models are used to collect correction proposals, which are represented as numerical features in the framework. A classifier determines and implements the appropriate corrections based on these features. In order to improve output quality, the framework uses support techniques to filter overlapping corrections and estimate decision reliability. A combination of AraT5, ByT5, mT5, AraBART, AraBART+Morph+GEC, and Text editing systems gave better results than a single model alone, with F0.5 at 82.63% on QALB-14 test data, 84.64% on QALB-15 L1 data, and 65.55% on QALB-15 L2 data. As one of the most significant contributions of this work, it's the first Arab attempt to integrate linguistic error correction. Improving existing models provides a practical step towards developing advanced tools that will benefit users and researchers of Arabic text processing.
- Abstract(参考訳): 文法的誤り訂正(GEC)は自然言語処理の重要な側面である。
アラビア語は複雑な形態的・統語的構造を持ち、他の言語よりも大きな課題を呈している。
近年、現代のニューラルモデルは大幅に改善されているが、以前の試みのほとんどは、異なるシステムを組み合わせることの潜在的な利点を考慮せずに、個々のモデルを使用していた。
本稿では,アラビア語の文法的誤りを訂正する最初のマルチシステム手法であるArbESC+(ArbESC+)を提案する。
いくつかのモデルが修正提案の収集に使用され、フレームワークの数値的特徴として表される。
分類器は、これらの特徴に基づいて適切な補正を判定し、実施する。
このフレームワークは、出力品質を改善するために、オーバーラップする修正をフィルタリングし、決定の信頼性を推定する支援技術を使用する。
AraT5、BYT5、mT5、AraBART、AraBART+Morph+GEC、テキスト編集システムの組み合わせは単一のモデルよりも優れた結果をもたらし、F0.5はQALB-14テストデータで82.63%、QALB-15 L1データで84.64%、QALB-15 L2データで65.55%であった。
この研究の最も重要な貢献の1つとして、言語的誤り訂正を統合する最初のアラブ人の試みである。
既存のモデルを改善することは、アラビア語のテキスト処理のユーザや研究者に有益な高度なツールを開発するための実践的なステップを提供する。
関連論文リスト
- Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [22.369277951685234]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
微調整 LLM では、量子化された Gemma2-9B モデルが 49.88 の chrF++ スコアを獲得し、ゼロショット GPT-4o (44.58) を上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study [11.972975896116383]
データから直接編集タグを導出するテキスト編集手法を導入し、言語固有の編集の必要性を排除した。
我々はその効果をアラビア語、古典的、形態学的に豊かな言語で実証し、異なる編集表現がモデル性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-03-02T18:48:50Z) - Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。
Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。
1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2024-12-23T13:08:48Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。