論文の概要: Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation
- arxiv url: http://arxiv.org/abs/2305.14734v2
- Date: Thu, 9 Nov 2023 16:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:25:24.591261
- Title: Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation
- Title(参考訳): アラビア語文法的誤りの検出と訂正の進歩:実証的研究
- Authors: Bashar Alhafni, Go Inoue, Christian Khairallah, Nizar Habash
- Abstract要約: 文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
- 参考スコア(独自算出の注目度): 12.15509670220182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammatical error correction (GEC) is a well-explored problem in English with
many existing models and datasets. However, research on GEC in morphologically
rich languages has been limited due to challenges such as data scarcity and
language complexity. In this paper, we present the first results on Arabic GEC
using two newly developed Transformer-based pretrained sequence-to-sequence
models. We also define the task of multi-class Arabic grammatical error
detection (GED) and present the first results on multi-class Arabic GED. We
show that using GED information as an auxiliary input in GEC models improves
GEC performance across three datasets spanning different genres. Moreover, we
also investigate the use of contextual morphological preprocessing in aiding
GEC systems. Our models achieve SOTA results on two Arabic GEC shared task
datasets and establish a strong benchmark on a recently created dataset. We
make our code, data, and pretrained models publicly available.
- Abstract(参考訳): 文法的誤り訂正(英: Grammatical error correction, GEC)は、多くの既存のモデルやデータセットを持つ英語でよく研究されている問題である。
しかし、データ不足や言語の複雑さといった問題により、形態学的に豊かな言語におけるGECの研究は限られている。
本稿では,2つの新しいトランスフォーマーを用いた事前学習シーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC に関する最初の結果を示す。
また,多クラスアラビア語文法誤り検出(GED)の課題を定義し,多クラスアラビア語GEDにおける最初の結果を示す。
GECモデルの補助入力としてGED情報を使用することで、異なるジャンルにまたがる3つのデータセット間のGEC性能が向上することを示す。
また, GEC 支援システムにおける文脈形態素前処理の利用についても検討した。
我々のモデルは、2つのアラビアGEC共有タスクデータセット上でSOTA結果を達成し、最近作成されたデータセット上で強力なベンチマークを確立する。
コード、データ、事前訓練されたモデルを公開しています。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - LLM-based Code-Switched Text Generation for Grammatical Error Correction [3.4457319208816224]
本研究では,文法的誤り訂正システムをコードスイッチング(CSW)テキストに適用する複雑性について検討する。
我々は、第二言語学習者として、英語のCSWデータセットから最先端のECCシステムを評価する。
単言語テキストとCSWテキストの文法的誤りを補正できるモデルを開発する。
論文 参考訳(メタデータ) (2024-10-14T10:07:29Z) - Are Pre-trained Language Models Useful for Model Ensemble in Chinese
Grammatical Error Correction? [10.302225525539003]
4つの洗練された単一モデルを持つ強力なPLMに基づくアンサンブル戦略を探索する。
性能は向上しないが、PLMベースのアンサンブル後にさらに悪化する。
論文 参考訳(メタデータ) (2023-05-24T14:18:52Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction [30.917993017459615]
本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
論文 参考訳(メタデータ) (2021-12-15T20:27:40Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。