論文の概要: Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification
- arxiv url: http://arxiv.org/abs/2411.08344v1
- Date: Wed, 13 Nov 2024 05:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:33.771900
- Title: Bangla Grammatical Error Detection Leveraging Transformer-based Token Classification
- Title(参考訳): 変圧器を用いたトケ分類を用いたバングラ文法的誤り検出
- Authors: Shayekh Bin Islam, Ridwanul Hasan Tanvir, Sihat Afnan,
- Abstract要約: 世界で7番目に話されている言語であるバングラ語における自動文法チェッカーの開発について検討する。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Bangla is the seventh most spoken language by a total number of speakers in the world, and yet the development of an automated grammar checker in this language is an understudied problem. Bangla grammatical error detection is a task of detecting sub-strings of a Bangla text that contain grammatical, punctuation, or spelling errors, which is crucial for developing an automated Bangla typing assistant. Our approach involves breaking down the task as a token classification problem and utilizing state-of-the-art transformer-based models. Finally, we combine the output of these models and apply rule-based post-processing to generate a more reliable and comprehensive result. Our system is evaluated on a dataset consisting of over 25,000 texts from various sources. Our best model achieves a Levenshtein distance score of 1.04. Finally, we provide a detailed analysis of different components of our system.
- Abstract(参考訳): バングラ語は世界で7番目に多くの話者が話す言語であるが、この言語における自動文法チェッカーの開発は未調査の問題である。
バングラ文法的誤り検出は、文法、句読点、スペルエラーを含むバングラテキストのサブストリングを検出するタスクである。
本手法では,トークン分類問題としてタスクを分割し,最先端のトランスフォーマーモデルを活用する。
最後に、これらのモデルの出力とルールベースの後処理を適用して、より信頼性が高く包括的な結果を生成する。
本システムは,様々な情報源から得られた25,000以上のテキストからなるデータセットを用いて評価する。
我々の最良のモデルは、Levenshtein 距離スコア 1.04 を達成する。
最後に,システムの各コンポーネントの詳細な分析を行う。
関連論文リスト
- BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models
for Violence Inciting Text Detection in Bengali [0.46040036610482665]
本稿では,バングラでテキスト検出を誘発する暴力行為における,この共有課題を解決するために開発したシステムについて述べる。
私たちは、従来のアプローチと最近のアプローチの両方を説明して、モデルを学習させました。
提案システムでは,テキストに脅威があるかどうかを分類する。
論文 参考訳(メタデータ) (2023-10-16T19:35:04Z) - Byte-Level Grammatical Error Correction Using Synthetic and Curated
Corpora [0.0]
文法的誤り訂正(英: Grammatical error correction, GEC)とは、文字のタイプミス、スペル、句読点、文法的問題を訂正する作業である。
バイトレベルのモデルにより、サブワードアプローチよりも高い補正品質が得られることを示す。
論文 参考訳(メタデータ) (2023-05-29T06:35:40Z) - Bangla Grammatical Error Detection Using T5 Transformer Model [0.0]
本稿では,テキスト変換器(T5言語モデル)を用いたバングラ語の文法的誤り検出手法を提案する。
T5モデルは、主に翻訳用に設計されており、このタスクのためには特別に設計されていないため、エラー検出のタスクに適応するためには、広範な後処理が必要であった。
実験により,Banglaにおける文法的誤りの検出において,T5モデルが低Levenshtein距離を達成可能であることが示されたが,処理後処理は最適性能を実現するために不可欠である。
論文 参考訳(メタデータ) (2023-03-19T09:24:48Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - A transformer-based spelling error correction framework for Bangla and resource scarce Indic languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。
バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。
本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:59:05Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Bangla Text Classification using Transformers [2.3475904942266697]
テキスト分類はNLPの最も初期の問題の一つである。
本研究では,Banglaテキスト分類タスクのための多言語変換モデルを微調整する。
6つのベンチマークデータセットのアート結果の状態を把握し、前回の結果を5~29%の精度で改善する。
論文 参考訳(メタデータ) (2020-11-09T14:12:07Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - On the Robustness of Language Encoders against Grammatical Errors [66.05648604987479]
我々は、非ネイティブ話者から実際の文法的誤りを収集し、これらの誤りをクリーンテキストデータ上でシミュレートするために敵攻撃を行う。
結果,全ての試験モデルの性能は影響するが,影響の程度は異なることがわかった。
論文 参考訳(メタデータ) (2020-05-12T11:01:44Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。