論文の概要: Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction
- arxiv url: http://arxiv.org/abs/2311.08219v1
- Date: Tue, 14 Nov 2023 14:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 13:35:02.846048
- Title: Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction
- Title(参考訳): Eval-GCSC:中国のスペル補正におけるChatGPTの性能評価のための新しい指標
- Authors: Kunting Li, Yong Hu, Shaolei Wang, Hanhan Ma, Liang He, Fandong Meng,
Jie Zhou
- Abstract要約: ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
- 参考スコア(独自算出の注目度): 60.32771192285546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT has demonstrated impressive performance in various downstream tasks.
However, in the Chinese Spelling Correction (CSC) task, we observe a
discrepancy: while ChatGPT performs well under human evaluation, it scores
poorly according to traditional metrics. We believe this inconsistency arises
because the traditional metrics are not well-suited for evaluating generative
models. Their overly strict length and phonics constraints may lead to
underestimating ChatGPT's correction capabilities. To better evaluate
generative models in the CSC task, this paper proposes a new evaluation metric:
Eval-GCSC. By incorporating word-level and semantic similarity judgments, it
relaxes the stringent length and phonics constraints. Experimental results show
that Eval-GCSC closely aligns with human evaluations. Under this metric,
ChatGPT's performance is comparable to traditional token-level classification
models (TCM), demonstrating its potential as a CSC tool. The source code and
scripts can be accessed at https://github.com/ktlKTL/Eval-GCSC.
- Abstract(参考訳): ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
しかし,中国のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
この矛盾が発生するのは、従来のメトリクスが生成モデルの評価に適していないからです。
その厳格な長さとフォニックスの制約は、chatgptの補正能力を過小評価する可能性がある。
本稿では,CSCタスクにおける生成モデルをよりよく評価するために,新しい評価指標であるEval-GCSCを提案する。
単語レベルの類似性判断と意味的類似性判断を組み込むことで、ストリンジェントの長さと音韻の制約を緩和する。
実験の結果,Eval-GCSCはヒトの評価と密接に一致していることがわかった。
この測定基準の下では、ChatGPTのパフォーマンスは従来のトークンレベルの分類モデル(TCM)と同等であり、CSCツールとしての可能性を示している。
ソースコードとスクリプトはhttps://github.com/ktlKTL/Eval-GCSCでアクセスできる。
関連論文リスト
- C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - Revisiting Meta-evaluation for Grammatical Error Correction [14.822205658480813]
SEEDAはGECメタ評価のための新しいデータセットである。
人間の評価を2つの異なる粒度で補正する。
その結果,既存の研究では編集基準が過小評価されていた可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-05T05:53:09Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Is ChatGPT a Highly Fluent Grammatical Error Correction System? A
Comprehensive Evaluation [41.94480044074273]
ChatGPTはGPT-3.5アーキテクチャに基づく大規模言語モデルである。
本稿では,ChatGPTのテキスト内学習を用いて,ゼロショットチェーン・オブ・シント(CoT)と少数ショットCoT設定を設計する。
本評価では,ChatGPTを3つの言語で5つの公式テストセット,および英語で3つの文書レベルGCCテストセットで評価する。
論文 参考訳(メタデータ) (2023-04-04T12:33:40Z) - ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction
Benchmark [11.36853733574956]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。
商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。
また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-03-15T00:35:50Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Improving Chinese Spelling Check by Character Pronunciation Prediction:
The Effects of Adaptivity and Granularity [76.20568599642799]
中国語のスペルチェック(英語: Chinese spelling check, CSC)は、中国語のテキスト中のスペルエラーを検出し修正する基本的なNLPタスクである。
本稿では,CSCを改善するために中国語発音予測(CPP)の補助的タスクを導入することを検討する。
本稿では,共有エンコーダの2つの並列デコーダ上に構築したSCOPEを提案する。
論文 参考訳(メタデータ) (2022-10-20T03:42:35Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。