論文の概要: Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation
- arxiv url: http://arxiv.org/abs/2406.14284v2
- Date: Thu, 05 Jun 2025 14:17:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.153116
- Title: Leveraging LLMs for Bangla Grammar Error Correction:Error Categorization, Synthetic Data, and Model Evaluation
- Title(参考訳): バングラグラマー誤り訂正のためのLLMの活用:誤り分類、合成データ、モデル評価
- Authors: Pramit Bhattacharyya, Arnab Bhattacharya,
- Abstract要約: 世界第5位の言語であるにもかかわらず、バングラの文法的誤り訂正(GEC)は未発達のままである。
まず、バングラで12のエラークラスを広範囲に分類し、実世界のエラーを収集するためにネイティブなバングラ話者を調査します。
次に,規則に基づくノイズ注入法を考案し,正しい文に対応する文法的不正確な文を生成する。
このデータセットは、バングラの GEC のタスクのための命令チューニング LLM に使用される。
- 参考スコア(独自算出の注目度): 3.9018931027384056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform exceedingly well in Natural Language Understanding (NLU) tasks for many languages including English. However, despite being the fifth most-spoken language globally, Grammatical Error Correction (GEC) in Bangla remains underdeveloped. In this work, we investigate how LLMs can be leveraged for improving Bangla GEC. For that, we first do an extensive categorization of 12 error classes in Bangla, and take a survey of native Bangla speakers to collect real-world errors. We next devise a rule-based noise injection method to create grammatically incorrect sentences corresponding to correct ones. The Vaiyakarana dataset, thus created, consists of 5,67,422 sentences of which 2,27,119 are erroneous. This dataset is then used to instruction-tune LLMs for the task of GEC in Bangla. Evaluations show that instruction-tuning with \name improves GEC performance of LLMs by 3-7 percentage points as compared to the zero-shot setting, and makes them achieve human-like performance in grammatical error identification. Humans, though, remain superior in error correction.
- Abstract(参考訳): 言語モデル(LLM)は、英語を含む多くの言語に対する自然言語理解(NLU)タスクにおいて、非常によく機能する。
しかし、世界第5位の言語であるにもかかわらず、バングラ語における文法的誤り訂正(GEC)は未発達のままである。
本研究は,バングラGECの改良にLLMをどのように活用できるかを考察する。
そのため、まずバングラで12のエラークラスを広範囲に分類し、ネイティブのバングラ話者を調査して実世界のエラーを収集する。
次に,規則に基づくノイズ注入法を考案し,正しい文に対応する文法的不正確な文を生成する。
ヴァイヤカラナのデータセットは5,67,422文で構成され、そのうち2,27,119文は誤りである。
このデータセットは、バングラの GEC のタスクのための命令チューニング LLM に使用される。
評価の結果, \name を用いた命令チューニングにより, ゼロショット設定に比べて LLM の GEC 性能が3~7 ポイント向上し, 文法的誤り識別において人間のような性能が達成されることがわかった。
しかし、人間は誤り訂正において優位である。
関連論文リスト
- Performance Evaluation of Large Language Models in Bangla Consumer Health Query Summarization [1.2289361708127877]
本研究では,9大言語モデル(LLM)のゼロショット性能について検討する。
ROUGEメトリクスを用いてこれらのLCMを、細調整された最先端モデルであるBangla T5に対してベンチマークした。
その結果、ゼロショットLLMは微調整モデルと競合し、タスク固有の訓練を必要とせずに高品質なサマリーを達成できることを示した。
論文 参考訳(メタデータ) (2025-05-08T09:06:28Z) - Bridging Dialects: Translating Standard Bangla to Regional Variants Using Neural Models [1.472830326343432]
この研究は、言語多様性を保ち、方言話者間のコミュニケーションを改善する必要性によって動機付けられている。
モデルは"Vashantor"データセットを使用して微調整され、様々な方言で32,500の文が含まれている。
BanglaT5はCERが12.3%、WERが15.7%で優れた性能を示し、方言のニュアンスを捉える効果を強調した。
論文 参考訳(メタデータ) (2025-01-10T06:50:51Z) - Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification [0.0]
世界で7番目に話されている言語であるバングラ語における自動文法チェッカーの開発について検討する。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-11-13T05:22:45Z) - Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - How Ready Are Generative Pre-trained Large Language Models for Explaining Bengali Grammatical Errors? [0.4857223913212445]
高度な生成人工知能(AI)を利用した文法的誤り訂正(GEC)ツール。
しかし、それらはしばしば、本質的な自然言語の説明の提供に不足する。
このような言語では、文法的誤り説明(GEE)システムは正しい文だけでなく、誤りの説明も提供すべきである。
論文 参考訳(メタデータ) (2024-05-27T15:56:45Z) - Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [49.97641297850361]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - GEE! Grammar Error Explanation with Large Language Models [64.16199533560017]
本稿では,文法的誤りを1対の誤り文と訂正文に1文で説明する必要がある文法的誤り説明の課題を提案する。
文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。
我々は、構造化されたアトミックトークンの編集を行うために、微調整された大規模言語モデルを活用する2段階のパイプラインを開発した。
論文 参考訳(メタデータ) (2023-11-16T02:45:47Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical
Error Correction with Supervised Fine-Tuning [46.75740002185691]
オープンソースのLarge Language ModelであるGrammarGPTを導入し、中国語の文法的誤り訂正の可能性を探る。
手がかり付き文法的誤りに対しては,ChatGPTを案内して非文法的文を生成する手法を提案する。
手がかりのない文法的誤りに対しては,公開ウェブサイトから非文法的文章を収集し,手作業で修正した。
論文 参考訳(メタデータ) (2023-07-26T02:45:38Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Bangla Grammatical Error Detection Using T5 Transformer Model [0.0]
本稿では,テキスト変換器(T5言語モデル)を用いたバングラ語の文法的誤り検出手法を提案する。
T5モデルは、主に翻訳用に設計されており、このタスクのためには特別に設計されていないため、エラー検出のタスクに適応するためには、広範な後処理が必要であった。
実験により,Banglaにおける文法的誤りの検出において,T5モデルが低Levenshtein距離を達成可能であることが示されたが,処理後処理は最適性能を実現するために不可欠である。
論文 参考訳(メタデータ) (2023-03-19T09:24:48Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Automatic Extraction of Bengali Root Verbs using Paninian Grammar [0.0]
提案システムは,動詞の時制,人格,形態的インフレクションに基づいて,その根形を見つけるために開発された。
出力の精度は98%に達し、言語専門家によって検証されている。
論文 参考訳(メタデータ) (2020-03-31T20:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。