論文の概要: VAIYAKARANA : A Benchmark for Automatic Grammar Correction in Bangla
- arxiv url: http://arxiv.org/abs/2406.14284v1
- Date: Thu, 20 Jun 2024 13:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:42:16.076669
- Title: VAIYAKARANA : A Benchmark for Automatic Grammar Correction in Bangla
- Title(参考訳): VAIYAKARANA : バングラにおける文法自動補正ベンチマーク
- Authors: Pramit Bhattacharyya, Arnab Bhattacharya,
- Abstract要約: バングラ語で文法的に間違った文を生成するための実践的な手法を提案する。
まず、バングラの異なる種類のエラーを5つの広いクラスと12のより細かいクラスに分類する。
このアプローチは、多数の間違った文を生成することができ、それによって、ニューラルネットワークの大規模なコーパスを欠いているという課題を軽減することができる。
- 参考スコア(独自算出の注目度): 3.9018931027384056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla (Bengali) is the fifth most spoken language globally and, yet, the problem of automatic grammar correction in Bangla is still in its nascent stage. This is mostly due to the need for a large corpus of grammatically incorrect sentences, with their corresponding correct counterparts. The present state-of-the-art techniques to curate a corpus for grammatically wrong sentences involve random swapping, insertion and deletion of words. However,these steps may not always generate grammatically wrong sentences in Bangla. In this work, we propose a pragmatic approach to generate grammatically wrong sentences in Bangla. We first categorize the different kinds of errors in Bangla into 5 broad classes and 12 finer classes. We then use these to generate grammatically wrong sentences systematically from a correct sentence. This approach can generate a large number of wrong sentences and can, thus, mitigate the challenge of lacking a large corpus for neural networks. We provide a dataset, Vaiyakarana, consisting of 92,830 grammatically incorrect sentences as well as 18,426 correct sentences. We also collected 619 human-generated sentences from essays written by Bangla native speakers. This helped us to understand errors that are more frequent. We evaluated our corpus against neural models and LLMs and also benchmark it against human evaluators who are native speakers of Bangla. Our analysis shows that native speakers are far more accurate than state-of-the-art models to detect whether the sentence is grammatically correct. Our methodology of generating erroneous sentences can be applied for most other Indian languages as well.
- Abstract(参考訳): バングラ語(ベンガル語)は世界で5番目に話される言語であるが、バングラ語における自動文法修正の問題はまだ初期段階にある。
これは主に、文法的に正しくない文の大きなコーパスが必要であり、対応する正しい文が必要とされるためである。
文法的に誤りのある文のコーパスをキュレートする最先端技術は、単語のランダムスワップ、挿入、削除を含む。
しかし、これらのステップはバングラ語で文法的に間違った文を生成するとは限らない。
本研究では,バングラ語における文法的誤り文を生成するための実践的手法を提案する。
まず、バングラの異なる種類のエラーを5つの広いクラスと12のより細かいクラスに分類する。
次に、これらを用いて正しい文から文法的に間違った文を体系的に生成する。
このアプローチは、多数の間違った文を生成することができ、それによって、ニューラルネットワークの大規模なコーパスを欠いているという課題を軽減することができる。
我々は、92,830の文法的誤り文と18,426の正しい文からなるデータセット、Vayyakaranaを提供する。
また、バングラ語話者によるエッセイから、619の人文を収集した。
これにより、より頻繁なエラーを理解するのに役立ちました。
我々は,ニューラルネットワークとLLMに対してコーパスを評価し,バングラの母語話者である人間の評価者に対してベンチマークを行った。
解析の結果,文が文法的に正しいかどうかを判断するために,母語話者は最先端のモデルよりもはるかに正確であることがわかった。
誤文を生成する手法は、他のほとんどのインドの言語にも適用できる。
関連論文リスト
- Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification [0.0]
世界で7番目に話されている言語であるバングラ語における自動文法チェッカーの開発について検討する。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-11-13T05:22:45Z) - Tibyan Corpus: Balanced and Comprehensive Error Coverage Corpus Using ChatGPT for Arabic Grammatical Error Correction [0.32885740436059047]
本研究の目的は,ChatGPTを用いた文法的誤り訂正のためのアラビア語コーパス"Tibyan"を開発することである。
ChatGPTは、アラビア語の本から抽出された誤りのない文と一致した文法的な誤りを含む一対のアラビア語の文に基づいてデータ拡張ツールとして使用される。
私たちのコーパスには、正書法、構文、意味論、句読法、形態学、分割という7つのタイプを含む49のエラーが含まれていました。
論文 参考訳(メタデータ) (2024-11-07T10:17:40Z) - GEE! Grammar Error Explanation with Large Language Models [64.16199533560017]
本稿では,文法的誤りを1対の誤り文と訂正文に1文で説明する必要がある文法的誤り説明の課題を提案する。
文法的誤り説明における GPT-4 の能力を解析し, ワンショットプロンプトを用いた60.2% の誤り説明しか生成しないことを確認した。
我々は、構造化されたアトミックトークンの編集を行うために、微調整された大規模言語モデルを活用する2段階のパイプラインを開発した。
論文 参考訳(メタデータ) (2023-11-16T02:45:47Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - GrammarGPT: Exploring Open-Source LLMs for Native Chinese Grammatical
Error Correction with Supervised Fine-Tuning [46.75740002185691]
オープンソースのLarge Language ModelであるGrammarGPTを導入し、中国語の文法的誤り訂正の可能性を探る。
手がかり付き文法的誤りに対しては,ChatGPTを案内して非文法的文を生成する手法を提案する。
手がかりのない文法的誤りに対しては,公開ウェブサイトから非文法的文章を収集し,手作業で修正した。
論文 参考訳(メタデータ) (2023-07-26T02:45:38Z) - Bangla Grammatical Error Detection Using T5 Transformer Model [0.0]
本稿では,テキスト変換器(T5言語モデル)を用いたバングラ語の文法的誤り検出手法を提案する。
T5モデルは、主に翻訳用に設計されており、このタスクのためには特別に設計されていないため、エラー検出のタスクに適応するためには、広範な後処理が必要であった。
実験により,Banglaにおける文法的誤りの検出において,T5モデルが低Levenshtein距離を達成可能であることが示されたが,処理後処理は最適性能を実現するために不可欠である。
論文 参考訳(メタデータ) (2023-03-19T09:24:48Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Automatic Extraction of Bengali Root Verbs using Paninian Grammar [0.0]
提案システムは,動詞の時制,人格,形態的インフレクションに基づいて,その根形を見つけるために開発された。
出力の精度は98%に達し、言語専門家によって検証されている。
論文 参考訳(メタデータ) (2020-03-31T20:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。