論文の概要: A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction
- arxiv url: http://arxiv.org/abs/2205.00217v1
- Date: Sat, 30 Apr 2022 09:40:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 14:30:42.641103
- Title: A New Evaluation Method: Evaluation Data and Metrics for Chinese Grammar
Error Correction
- Title(参考訳): 新しい評価方法:中国語文法誤り訂正のための評価データとメトリクス
- Authors: Nankai Lin, Nankai Lin, Xiaotian Lin, Ziyu Yang, Shengyi Jiang
- Abstract要約: 同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
本稿では,CGECの基準ベースと基準レスの2次元における3つの新しい評価指標を提案する。
- 参考スコア(独自算出の注目度): 4.60495447017298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental task in natural language processing, Chinese Grammatical
Error Correction (CGEC) has gradually received widespread attention and become
a research hotspot. However, one obvious deficiency for the existing CGEC
evaluation system is that the evaluation values are significantly influenced by
the Chinese word segmentation results or different language models. The
evaluation values of the same error correction model can vary considerably
under different word segmentation systems or different language models.
However, it is expected that these metrics should be independent of the word
segmentation results and language models, as they may lead to a lack of
uniqueness and comparability in the evaluation of different methods. To this
end, we propose three novel evaluation metrics for CGEC in two dimensions:
reference-based and reference-less. In terms of the reference-based metric, we
introduce sentence-level accuracy and char-level BLEU to evaluate the corrected
sentences. Besides, in terms of the reference-less metric, we adopt char-level
meaning preservation to measure the semantic preservation degree of the
corrected sentences. We deeply evaluate and analyze the reasonableness and
validity of the three proposed metrics, and we expect them to become a new
standard for CGEC.
- Abstract(参考訳): 自然言語処理の基本課題として,中国語文法誤り訂正(CGEC)が次第に注目され,研究ホットスポットとなっている。
しかし,既存のCGEC評価システムにおいて明らかな欠点は,評価値が中国語の単語分割結果や異なる言語モデルに大きく影響されることである。
同じ誤り訂正モデルの評価値は、異なる単語分割システムや異なる言語モデルの下で大きく変化する可能性がある。
しかし,これらの指標は単語分割結果と言語モデルとは独立にすべきであり,異なる手法の評価において特異性やコンパラビリティが欠如している可能性がある。
そこで本研究では,CGECを基準ベースと基準レスの2次元で評価する手法を提案する。
基準に基づく計量では,訂正文を評価するために文レベル精度とチャレベルBLEUを導入する。
また、基準のないメートル法では、修正文の意味保存度を測定するために、チャレベル意味保存を採用する。
提案した3つの指標の妥当性と妥当性を深く評価・分析し,CGECの新たな標準となることを期待する。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Machine Translation Meta Evaluation through Translation Accuracy
Challenge Sets [92.38654521870444]
ACESは146の言語ペアにまたがる対照的な課題セットです。
このデータセットは、メトリクスが68の翻訳精度の誤差を識別できるかどうかを調べることを目的としている。
我々は、WMT2022および2023のメトリクス共有タスクに提出された50のメトリクスに対して、ACESをベンチマークすることで、大規模な研究を行う。
論文 参考訳(メタデータ) (2024-01-29T17:17:42Z) - Evaluation of really good grammatical error correction [0.0]
文法的誤り訂正(GEC)は、異なる目的を持つ様々なモデルを含んでいる。
従来の評価手法では、システム機能や目的を完全に把握できない。
論文 参考訳(メタデータ) (2023-08-17T13:45:35Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - CLEME: Debiasing Multi-reference Evaluation for Grammatical Error
Correction [32.44051877804761]
チャンクレベル多重参照評価(CLEME)は,多参照評価設定において文法誤り訂正(GEC)システムを評価するように設計されている。
我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。
論文 参考訳(メタデータ) (2023-05-18T08:57:17Z) - DEMETR: Diagnosing Evaluation Metrics for Translation [21.25704103403547]
我々は、英語31K例の診断データセットであるDEMETRをリリースする。
学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-25T03:25:44Z) - MuCGEC: a Multi-Reference Multi-Source Evaluation Dataset for Chinese
Grammatical Error Correction [51.3754092853434]
MuCGECは中国語文法誤り訂正(CGEC)のためのマルチ参照評価データセットである
3つの中国語-as-a-Second-Language(CSL)学習資料から収集された7,063文からなる。
各文は3つのアノテータによって修正され、その修正は専門家によって慎重にレビューされ、1文あたりの参照数は2.3である。
論文 参考訳(メタデータ) (2022-04-23T05:20:38Z) - Grammar Accuracy Evaluation (GAE): Quantifiable Intrinsic Evaluation of
Machine Translation Models [3.007949058551534]
本稿では,特定の評価基準を提供するための文法精度評価(GAE)を提案する。
BLEUとGAEによる機械翻訳の品質分析の結果,BLEUスコアは機械翻訳モデルの絶対性能を表すものではないことを確認した。
論文 参考訳(メタデータ) (2021-05-29T11:40:51Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。