論文の概要: A Simple Yet Effective Corpus Construction Framework for Indonesian Grammatical Error Correction
- arxiv url: http://arxiv.org/abs/2410.20838v1
- Date: Mon, 28 Oct 2024 08:44:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:14:28.093453
- Title: A Simple Yet Effective Corpus Construction Framework for Indonesian Grammatical Error Correction
- Title(参考訳): インドネシアの文法的誤り訂正のためのシンプルで効果的なコーパス構築フレームワーク
- Authors: Nankai Lin, Meiyu Zeng, Wentao Huang, Shengyi Jiang, Lixian Xiao, Aimin Yang,
- Abstract要約: 低リソース言語でGECコーパスを構築するためのフレームワークを提案する。
具体的には、インドネシア語を研究言語として重視する。
提案手法を用いてインドネシアGECの評価コーパスを構築した。
- 参考スコア(独自算出の注目度): 7.378963590826542
- License:
- Abstract: Currently, the majority of research in grammatical error correction (GEC) is concentrated on universal languages, such as English and Chinese. Many low-resource languages lack accessible evaluation corpora. How to efficiently construct high-quality evaluation corpora for GEC in low-resource languages has become a significant challenge. To fill these gaps, in this paper, we present a framework for constructing GEC corpora. Specifically, we focus on Indonesian as our research language and construct an evaluation corpus for Indonesian GEC using the proposed framework, addressing the limitations of existing evaluation corpora in Indonesian. Furthermore, we investigate the feasibility of utilizing existing large language models (LLMs), such as GPT-3.5-Turbo and GPT-4, to streamline corpus annotation efforts in GEC tasks. The results demonstrate significant potential for enhancing the performance of LLMs in low-resource language settings. Our code and corpus can be obtained from https://github.com/GKLMIP/GEC-Construction-Framework.
- Abstract(参考訳): 現在、文法的誤り訂正(GEC)の研究の大部分は、英語や中国語などの普遍言語に集中している。
低リソース言語の多くは、アクセス可能な評価コーパスを欠いている。
低リソース言語におけるGECの高品質評価コーパスを効率的に構築する方法は大きな課題となっている。
本稿では,これらのギャップを埋めるために,GECコーパスを構築するためのフレームワークを提案する。
具体的には、インドネシア語を研究言語として重視し、提案した枠組みを用いてインドネシアのGECの評価コーパスを構築し、インドネシアにおける既存の評価コーパスの限界に対処する。
さらに, GPT-3.5-Turbo や GPT-4 などの既存の大規模言語モデル (LLM) を用いて, GEC タスクにおけるコーパスアノテーションの取り組みを効率化する可能性を検討した。
その結果,低リソース言語設定におけるLLMの性能向上の可能性が示唆された。
コードとコーパスはhttps://github.com/GKLMIP/GEC-Construction-Frameworkから取得できます。
関連論文リスト
- Large Language Models Are State-of-the-Art Evaluator for Grammatical Error Correction [14.822205658480813]
大規模言語モデル(LLM)は、いくつかのタスクにおいて既存の自動評価指標より優れていることが報告されている。
本研究では, 文法的誤り訂正(GEC)評価におけるLLMの性能について, 従来の研究から着想を得たプロンプトを用いて検討した。
論文 参考訳(メタデータ) (2024-03-26T09:43:15Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A BERT-based Unsupervised Grammatical Error Correction Framework [9.431453382607845]
文法的誤り訂正(GEC)は自然言語処理技術の課題である。
低リソース言語では、言語モデルスコアリングに基づく現在の教師なしGCCがよく機能する。
本研究では,BERT をベースとした非教師付き GEC フレームワークを提案し,GEC をマルチクラス分類タスクとみなす。
論文 参考訳(メタデータ) (2023-03-30T13:29:49Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - RuCoLA: Russian Corpus of Linguistic Acceptability [6.500438378175089]
ロシア言語受容性コーパス(RuCoLA)について紹介する。
RuCoLAは、言語出版物の9.8ドルのドメイン内文と、生成モデルによって生成される3.6ドルのドメイン外文で構成されている。
最も広く使われている言語モデルは、特に形態的および意味的誤りを検出する際に、大きなマージンで人間に後れを取っていることを実証する。
論文 参考訳(メタデータ) (2022-10-23T18:29:22Z) - Linguistic Rules-Based Corpus Generation for Native Chinese Grammatical
Error Correction [36.74272211767197]
本稿では,言語規則に基づく大規模CGEC学習コーパスの構築手法を提案する。
実世界のシナリオにおける中国語話者の誤りから完全に導かれる、挑戦的なCGECベンチマークを提案する。
論文 参考訳(メタデータ) (2022-10-19T10:20:39Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Grammatical Error Correction in Low Error Density Domains: A New
Benchmark and Analyses [17.57265480823457]
我々は,英語話者が様々な習熟度で生成したWebサイトテキストからなるGECの新しいベンチマークであるCWEBをリリースした。
ウェブサイトデータは、学習者のエッセイよりも文法的な誤りがはるかに少ない、一般的で重要なドメインである。
この背景にある要因は、低エラー密度領域における強力な内部言語モデルに依存するシステムがないことである。
論文 参考訳(メタデータ) (2020-10-15T07:52:01Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。