論文の概要: Grammatical Error Correction: A Survey of the State of the Art
- arxiv url: http://arxiv.org/abs/2211.05166v3
- Date: Sat, 25 Mar 2023 13:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:00:07.339140
- Title: Grammatical Error Correction: A Survey of the State of the Art
- Title(参考訳): 文法的誤り訂正 : 美術の現状調査
- Authors: Christopher Bryant, Zheng Yuan, Muhammad Reza Qorib, Hannan Cao, Hwee
Tou Ng, Ted Briscoe
- Abstract要約: 文法的誤り訂正(英: Grammatical Error Correction, GEC)は、テキスト中のエラーを自動的に検出し、修正するタスクである。
この分野は過去10年間で大きな進歩を遂げており、一部は5つの共有タスクによって動機付けられている。
- 参考スコア(独自算出の注目度): 15.174807142080187
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grammatical Error Correction (GEC) is the task of automatically detecting and
correcting errors in text. The task not only includes the correction of
grammatical errors, such as missing prepositions and mismatched subject-verb
agreement, but also orthographic and semantic errors, such as misspellings and
word choice errors respectively. The field has seen significant progress in the
last decade, motivated in part by a series of five shared tasks, which drove
the development of rule-based methods, statistical classifiers, statistical
machine translation, and finally neural machine translation systems which
represent the current dominant state of the art. In this survey paper, we
condense the field into a single article and first outline some of the
linguistic challenges of the task, introduce the most popular datasets that are
available to researchers (for both English and other languages), and summarise
the various methods and techniques that have been developed with a particular
focus on artificial error generation. We next describe the many different
approaches to evaluation as well as concerns surrounding metric reliability,
especially in relation to subjective human judgements, before concluding with
an overview of recent progress and suggestions for future work and remaining
challenges. We hope that this survey will serve as comprehensive resource for
researchers who are new to the field or who want to be kept apprised of recent
developments.
- Abstract(参考訳): 文法的誤り訂正(英: grammatical error correction、gec)は、テキスト中の誤りを自動的に検出し修正する作業である。
このタスクには、前置詞の欠如や主語-動詞の一致の誤りなどの文法的誤りの修正だけでなく、スペルミスや単語選択エラーなどの正書法と意味的誤りも含んでいる。
この分野は過去10年間に顕著な進歩を遂げており、一部にはルールベースの手法、統計分類器、統計機械翻訳、そして芸術の現在の支配的な状態を表すニューラルネットワーク翻訳システムの開発を推進した5つの共有タスクが動機となっている。
本稿では,この分野を一つの記事にまとめ,まず,課題の言語的課題について概説し,研究者が利用可能な最も一般的なデータセット(英語と他言語)を紹介し,特に人工的エラー生成に焦点を当てた様々な手法とテクニックを要約する。
次に,評価に対する様々なアプローチについて述べるとともに,特に主観的人間の判断に関して,メートル法信頼性に関する懸念について述べるとともに,最近の進歩と今後の課題への提言の概要をまとめる。
この調査が、この分野に新しい研究者や、最近の進歩を評価され続けたい研究者にとって、包括的なリソースになることを期待しています。
関連論文リスト
- A Comprehensive Approach to Misspelling Correction with BERT and Levenshtein Distance [1.7000578646860536]
最も多い書き込みエラーのうち、スペルミスは、様々な要因によって頻繁に発生する。
本研究の目的は,ニューラルネットワークを用いてテキスト中の多様な綴り誤りを特定し,修正することである。
論文 参考訳(メタデータ) (2024-07-24T16:07:11Z) - A Comparative Study of Transformer-based Neural Text Representation
Techniques on Bug Triaging [8.831760500324318]
我々は、バグトリアージのタスクにおいて、ファイントゥーントランスフォーマーベースの言語モデルに関する最初の調査の1つを提供している。
DeBERTaは、開発者とコンポーネントの割り当てのトリアージタスクの中で、最も効果的なテクニックです。
論文 参考訳(メタデータ) (2023-10-10T18:09:32Z) - A Methodology for Generative Spelling Correction via Natural Spelling
Errors Emulation across Multiple Domains and Languages [39.75847219395984]
本稿では,英語とロシア語でテストした生成スペル補正法について述べる。
本研究では,これらの誤りを正しい文でエミュレートして生成モデルの事前訓練手順を効果的に強化する方法について検討する。
SAGE(Spell check via Augmentation and Generative Distribution Emulation)を紹介します。
論文 参考訳(メタデータ) (2023-08-18T10:07:28Z) - Recent Advances in Direct Speech-to-text Translation [58.692782919570845]
我々は、既存の研究成果を、モデリングの負担、データの不足、アプリケーション問題という3つの課題に基づいて分類する。
データ不足の課題に対して、最近の研究は、データ強化、事前学習、知識蒸留、多言語モデリングなど、多くの高度な技術を活用している。
我々は、リアルタイム、セグメンテーション、名前付きエンティティ、性別バイアス、コードスイッチングなど、アプリケーションの問題を分析して要約する。
論文 参考訳(メタデータ) (2023-06-20T16:14:27Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Persian Typographical Error Type Detection Using Deep Neural Networks on Algorithmically-Generated Misspellings [2.2503811834154104]
タイポグラフィーによるペルシャのエラータイプ検出は比較的調査の少ない地域である。
本稿では,ペルシャ語文の誤字を検出するための説得力のあるアプローチを提案する。
最終手法の結果は競争力が高く、精度は97.62%、精度は98.83%、リコールは98.61%、速度は他を上回った。
論文 参考訳(メタデータ) (2023-05-19T15:05:39Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Improving Pre-trained Language Models with Syntactic Dependency
Prediction Task for Chinese Semantic Error Recognition [52.55136323341319]
既存の中国語のテキスト誤り検出は主にスペルと単純な文法的誤りに焦点を当てている。
中国の意味的誤りは、人間が容易に認識できないほど過小評価され、複雑である。
論文 参考訳(メタデータ) (2022-04-15T13:55:32Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。