論文の概要: Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2411.04588v1
- Date: Thu, 07 Nov 2024 10:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:40:11.938290
- Title: Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction
- Title(参考訳): Tibyan Corpus: ChatGPT を用いたアラビア語文法的誤り訂正のためのバランスよく総合的なエラーカバーコーパス
- Authors: Ahlam Alrehili, Areej Alhothali,
- Abstract要約: 本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
- 参考スコア(独自算出の注目度): 0.32885740436059047
- License:
- Abstract: Natural language processing (NLP) utilizes text data augmentation to overcome sample size constraints. Increasing the sample size is a natural and widely used strategy for alleviating these challenges. In this study, we chose Arabic to increase the sample size and correct grammatical errors. Arabic is considered one of the languages with limited resources for grammatical error correction (GEC). Furthermore, QALB-14 and QALB-15 are the only datasets used in most Arabic grammatical error correction research, with approximately 20,500 parallel examples, which is considered low compared with other languages. Therefore, this study aims to develop an Arabic corpus called "Tibyan" for grammatical error correction using ChatGPT. ChatGPT is used as a data augmenter tool based on a pair of Arabic sentences containing grammatical errors matched with a sentence free of errors extracted from Arabic books, called guide sentences. Multiple steps were involved in establishing our corpus, including the collection and pre-processing of a pair of Arabic texts from various sources, such as books and open-access corpora. We then used ChatGPT to generate a parallel corpus based on the text collected previously, as a guide for generating sentences with multiple types of errors. By engaging linguistic experts to review and validate the automatically generated sentences, we ensured that they were correct and error-free. The corpus was validated and refined iteratively based on feedback provided by linguistic experts to improve its accuracy. Finally, we used the Arabic Error Type Annotation tool (ARETA) to analyze the types of errors in the Tibyan corpus. Our corpus contained 49 of errors, including seven types: orthography, morphology, syntax, semantics, punctuation, merge, and split. The Tibyan corpus contains approximately 600 K tokens.
- Abstract(参考訳): 自然言語処理(NLP)は、テキストデータ拡張を利用してサンプルサイズ制約を克服する。
サンプルサイズの増大は、これらの課題を緩和するための自然で広く使われている戦略である。
そこで本研究では,サンプルのサイズを拡大し,文法的誤りを正すためにアラビア語を選択した。
アラビア語は文法的誤り訂正(GEC)の限られた資源を持つ言語の一つと考えられている。
さらに、QALB-14とQALB-15は、ほとんどのアラビア語の文法的誤り訂正研究で使われている唯一のデータセットであり、約20,500の並列な例が他の言語と比較して低いと考えられている。
そこで本研究では,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することを目的とする。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的誤りを含む一対のアラビア語の文を基にしたデータ拡張ツールとして使用される。
書籍やオープンアクセスコーパスなど、さまざまな情報源からアラビア文字の1対の収集と前処理を含む、コーパスの確立に複数のステップがかかわっていた。
次に、ChatGPTを用いて、以前に収集したテキストに基づいて並列コーパスを生成する。
言語専門家が自動生成文のレビューと検証を行うことで,それらが正確かつ誤りのないものであることを確認した。
コーパスは言語専門家のフィードバックに基づいて検証され、改良され、精度が向上した。
最後に、アラビアエラー型アノテーションツール(ARETA)を用いて、Tibyan corpusのエラーの種類を分析した。
私たちのコーパスには、正書法、形態学、構文、意味論、句読点、マージ、分割という7つのタイプを含む49のエラーが含まれていました。
ティビアン・コーパスには約600Kのトークンが含まれている。
関連論文リスト
- GEE! Grammar Error Explanation with Large Language Models [64.16199533560017]
本稿では,文法的誤りを1対の誤り文と訂正文に1文で説明する必要がある文法的誤り説明の課題を提案する。
文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。
我々は、構造化されたアトミックトークンの編集を行うために、微調整された大規模言語モデルを活用する2段階のパイプラインを開発した。
論文 参考訳(メタデータ) (2023-11-16T02:45:47Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection [1.8275108630751844]
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用い,アラビア語における文対の矛盾を検出する手法を提案する。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
論文 参考訳(メタデータ) (2022-09-28T09:37:16Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Offensive Language Detection in Under-resourced Algerian Dialectal
Arabic Language [0.0]
我々は、未資源の言語の1つであるアルジェリア方言のアラビア語に焦点を当てている。
同じ言語での作業が不足しているため、我々は8.7k以上のテキストを通常の、虐待的、攻撃的に手動で注釈付けした新しいコーパスを構築した。
論文 参考訳(メタデータ) (2022-03-18T15:42:21Z) - Automatic Error Type Annotation for Arabic [20.51341894424478]
現代標準アラビア語のための自動エラー型アノテーションシステムであるARETAを提案する。
我々は誤り分類をアラビア学習者コーパス(ALC)のError Tagsetにいくつかの修正を加えている。
ARETAは、ALCのマニュアルアノテートされたブラインドテスト部分において85.8%(マイクロ平均F1スコア)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-09-16T15:50:11Z) - Correcting Arabic Soft Spelling Mistakes using BiLSTM-based Machine
Learning [1.7205106391379026]
柔らかい綴りの誤りは、アラビア語話者や外国の学習者にも広く見られる。
我々は、一連のBiLSTMネットワークを開発し、訓練し、評価し、比較し、この種のエラーを修正します。
最良のモデルは、注入されたエラーの96.4%を補正し、ソフトスペルの実際のテストセットで1.28%の低い文字エラー率を達成する。
論文 参考訳(メタデータ) (2021-08-02T19:47:55Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。