論文の概要: ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction
- arxiv url: http://arxiv.org/abs/2112.08466v1
- Date: Wed, 15 Dec 2021 20:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 09:44:26.459015
- Title: ErAConD : Error Annotated Conversational Dialog Dataset for Grammatical
Error Correction
- Title(参考訳): ErAConD : 文法的誤り訂正のための誤り注釈付き会話対話データセット
- Authors: Xun Yuan, Derek Pham, Sam Davidson, Zhou Yu
- Abstract要約: 本稿では,オープンドメイン会話から抽出した新しい並列文法誤り訂正データセットを提案する。
このデータセットは、私たちの知る限り、会話の設定をターゲットにした最初のECCデータセットです。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整する。
- 参考スコア(独自算出の注目度): 30.917993017459615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently available grammatical error correction (GEC) datasets are compiled
using well-formed written text, limiting the applicability of these datasets to
other domains such as informal writing and dialog. In this paper, we present a
novel parallel GEC dataset drawn from open-domain chatbot conversations; this
dataset is, to our knowledge, the first GEC dataset targeted to a
conversational setting. To demonstrate the utility of the dataset, we use our
annotated data to fine-tune a state-of-the-art GEC model, resulting in a 16
point increase in model precision. This is of particular importance in a GEC
model, as model precision is considered more important than recall in GEC tasks
since false positives could lead to serious confusion in language learners. We
also present a detailed annotation scheme which ranks errors by perceived
impact on comprehensibility, making our dataset both reproducible and
extensible. Experimental results show the effectiveness of our data in
improving GEC model performance in conversational scenario.
- Abstract(参考訳): 現在利用可能な文法的誤り訂正(GEC)データセットは、よく書かれたテキストを使用してコンパイルされ、これらのデータセットの適用性は、非公式な書き込みやダイアログなどの他のドメインに制限される。
本稿では,オープンドメインチャットボットの会話から抽出された新しい並行GCCデータセットを提案する。
データセットの有用性を実証するために、アノテーション付きデータを用いて最先端のECCモデルを微調整し、モデル精度が16ポイント向上した。
GECモデルでは、偽陽性が言語学習者に深刻な混乱をもたらす可能性があるため、モデル精度がGECタスクのリコールよりも重要であると考えられるため、これは特に重要である。
また,理解性への影響を認識してエラーをランク付けし,データセットの再現性と拡張性を両立させる,詳細なアノテーションスキームを提案する。
実験の結果,会話シナリオにおけるGECモデルの性能向上におけるデータの有効性が示された。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - ChatLang-8: An LLM-Based Synthetic Data Generation Framework for Grammatical Error Correction [6.220415006158471]
そこで我々はChatLang-8という文法的誤り訂正タスクのための新しいデータセットを提案する。
ChatLang-8は、人間に似た文法エラーを特徴とする100万対で構成されている。
GECデータセットの代わりにChatLang-8を使用する場合のモデル性能の改善を観察する。
論文 参考訳(メタデータ) (2024-06-05T12:35:00Z) - Towards End-to-End Spoken Grammatical Error Correction [33.116296120680296]
Spoken grammatical error correct (GEC) は,L2学習者に対して,発話時の文法使用に対するフィードバックの提供を目的としている。
本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T17:49:02Z) - Advancements in Arabic Grammatical Error Detection and Correction: An
Empirical Investigation [12.15509670220182]
文法的誤り訂正(英: Grammatical error correct, GEC)は、英語でよく研究されている問題である。
形態学的に豊かな言語におけるGECの研究は、データの不足や言語の複雑さといった課題のために制限されてきた。
新たに開発した2つのトランスフォーマーを用いたプレトレーニングシーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC の最初の結果を示す。
論文 参考訳(メタデータ) (2023-05-24T05:12:58Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - A Syntax-Guided Grammatical Error Correction Model with Dependency Tree
Correction [83.14159143179269]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、文中の文法的誤りを検出し、訂正するタスクである。
本稿では,依存木の構文知識を利用するためのグラフアテンション機構を採用した構文誘導型GECモデル(SG-GEC)を提案する。
我々は、GECタスクの公開ベンチマークでモデルを評価し、競争結果を得る。
論文 参考訳(メタデータ) (2021-11-05T07:07:48Z) - Neural Quality Estimation with Multiple Hypotheses for Grammatical Error
Correction [98.31440090585376]
文法的誤り訂正(GEC)は、誤りの訂正と言語学習者の書き方の改善を支援することを目的としている。
既存のGECモデルは、激しい修正や多くのエラーの検出に失敗する傾向があります。
本稿では,複数の仮説を用いたGEC品質評価のためのニューラル検証ネットワーク(VERNet)を提案する。
論文 参考訳(メタデータ) (2021-05-10T15:04:25Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - Data Weighted Training Strategies for Grammatical Error Correction [8.370770440898454]
文法的誤り訂正(GEC)のトレーニングスケジュールにデルタ-log-perplexityを組み込む方法を示す。
得られたデータに基づいて訓練されたモデルは、一般的なGECテストセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-08-07T03:30:14Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。