論文の概要: A Comprehensive Survey of Grammar Error Correction
- arxiv url: http://arxiv.org/abs/2005.06600v1
- Date: Sat, 2 May 2020 04:46:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:59:02.959450
- Title: A Comprehensive Survey of Grammar Error Correction
- Title(参考訳): 文法誤り訂正に関する総合的調査
- Authors: Yu Wang, Yuelin Wang, Jie Liu, Zhuo Liu
- Abstract要約: 文法誤り訂正(GEC)は自然言語処理技術の重要な応用分野である。
過去10年間、機械学習とディープラーニングの普及のために、ECCで大きな進歩を遂げてきた。
本研究は,本分野の文献を総合的に考察するための第1回調査である。
- 参考スコア(独自算出の注目度): 10.251356177014756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grammar error correction (GEC) is an important application aspect of natural
language processing techniques. The past decade has witnessed significant
progress achieved in GEC for the sake of increasing popularity of machine
learning and deep learning, especially in late 2010s when near human-level GEC
systems are available. However, there is no prior work focusing on the whole
recapitulation of the progress. We present the first survey in GEC for a
comprehensive retrospect of the literature in this area. We first give the
introduction of five public datasets, data annotation schema, two important
shared tasks and four standard evaluation metrics. More importantly, we discuss
four kinds of basic approaches, including statistical machine translation based
approach, neural machine translation based approach, classification based
approach and language model based approach, six commonly applied performance
boosting techniques for GEC systems and two data augmentation methods. Since
GEC is typically viewed as a sister task of machine translation, many GEC
systems are based on neural machine translation (NMT) approaches, where the
neural sequence-to-sequence model is applied. Similarly, some performance
boosting techniques are adapted from machine translation and are successfully
combined with GEC systems for enhancement on the final performance.
Furthermore, we conduct an analysis in level of basic approaches, performance
boosting techniques and integrated GEC systems based on their experiment
results respectively for more clear patterns and conclusions. Finally, we
discuss five prospective directions for future GEC researches.
- Abstract(参考訳): 文法誤り訂正(GEC)は自然言語処理技術の重要な応用分野である。
過去10年間、機械学習とディープラーニングの人気が高まり、特に2010年代後半に人間レベルのECCシステムが利用可能になったことで、GECにおいて大きな進歩が見られた。
しかし、進捗の回復全体に焦点を当てた事前作業は行われていない。
本研究は,本分野の文献を総合的に考察するための第1回調査である。
まず5つの公開データセット、データアノテーションスキーマ、2つの重要な共有タスク、4つの標準評価指標を紹介します。
さらに,統計機械翻訳に基づくアプローチ,ニューラルマシン翻訳に基づくアプローチ,分類に基づくアプローチ,言語モデルに基づくアプローチ,GECシステムにおける6つの一般的なパフォーマンス向上手法,および2つのデータ拡張手法など,4種類の基本的アプローチについて議論する。
GECは通常、機械翻訳の姉妹タスクと見なされるため、多くのGECシステムはニューラル・マシン・トランスフォーメーション(NMT)アプローチに基づいており、ニューラル・シーケンス・ツー・シーケンス・モデルが適用される。
同様に、いくつかの性能向上技術は機械翻訳から適用され、最終性能の向上のためにGECシステムとうまく組み合わせられる。
さらに, 実験結果に基づいて, 基本手法, 性能向上技術, 統合型GECシステムの解析を行い, より明確なパターンと結論を得た。
最後に,今後のGEC研究の5つの方向性について論じる。
関連論文リスト
- Evaluating the performance of state-of-the-art esg domain-specific pre-trained large language models in text classification against existing models and traditional machine learning techniques [0.0]
本研究では,テキスト開示における環境・社会・ガバナンス情報(ESG)の分類について検討する。
本研究の目的は,E,S,G関連コンテンツをそれぞれ正確に識別・分類できるバイナリ分類モデルを開発し,評価することである。
この研究の動機は、投資決定におけるESGの考慮と企業説明責任の増大に起因している。
論文 参考訳(メタデータ) (2024-09-30T20:08:32Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Graph Condensation: A Survey [49.41718583061147]
グラフデータの急速な成長は、ストレージ、送信、特にグラフニューラルネットワーク(GNN)のトレーニングにおいて大きな課題をもたらす。
これらの課題に対処するために、グラフ凝縮(GC)が革新的な解決策として登場した。
GCはコンパクトだが非常に代表的なグラフに重点を置いており、トレーニングされたGNNが元の大きなグラフでトレーニングされたグラフに匹敵するパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-01-22T06:47:00Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - A Survey on Heterogeneous Graph Embedding: Methods, Techniques,
Applications and Sources [79.48829365560788]
異種情報ネットワーク (heterogenous information network) としても知られるヘテロジニアスグラフ (HGs) は、現実のシナリオにおいてユビキタス化されている。
HG埋め込みは、下流タスクのための不均一な構造と意味を保ちながら、低次元空間での表現を学習することを目的としている。
論文 参考訳(メタデータ) (2020-11-30T15:03:47Z) - GPT-too: A language-model-first approach for AMR-to-text generation [22.65728041544785]
本稿では,事前学習型言語モデルとサイクル整合性に基づく再描画を併用したアプローチを提案する。
アプローチの単純さにもかかわらず、実験結果は、これらのモデルが過去のすべての手法より優れていることを示している。
論文 参考訳(メタデータ) (2020-05-18T22:50:26Z) - Improved Code Summarization via a Graph Neural Network [96.03715569092523]
一般に、ソースコード要約技術はソースコードを入力として使用し、自然言語記述を出力する。
これらの要約を生成するために、ASTのデフォルト構造によくマッチするグラフベースのニューラルアーキテクチャを使用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-04-06T17:36:42Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。