論文の概要: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
- arxiv url: http://arxiv.org/abs/2303.04048v3
- Date: Tue, 24 Oct 2023 14:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:23:26.416098
- Title: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
- Title(参考訳): chatgptは優れたnlgエバブリエーターか?
予備的研究
- Authors: Jiaan Wang, Yunlong Liang, Fandong Meng, Zengkui Sun, Haoxiang Shi,
Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou
- Abstract要約: NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
- 参考スコア(独自算出の注目度): 121.77986688862302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the emergence of ChatGPT has attracted wide attention from the
computational linguistics community. Many prior studies have shown that ChatGPT
achieves remarkable performance on various NLP tasks in terms of automatic
evaluation metrics. However, the ability of ChatGPT to serve as an evaluation
metric is still underexplored. Considering assessing the quality of natural
language generation (NLG) models is an arduous task and NLG metrics notoriously
show their poor correlation with human judgments, we wonder whether ChatGPT is
a good NLG evaluation metric. In this report, we provide a preliminary
meta-evaluation on ChatGPT to show its reliability as an NLG metric. In detail,
we regard ChatGPT as a human evaluator and give task-specific (e.g.,
summarization) and aspect-specific (e.g., relevance) instruction to prompt
ChatGPT to evaluate the generated results of NLG models. We conduct experiments
on five NLG meta-evaluation datasets (including summarization, story generation
and data-to-text tasks). Experimental results show that compared with previous
automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation
with human judgments in most cases. In addition, we find that the effectiveness
of the ChatGPT evaluator might be influenced by the creation method of the
meta-evaluation datasets. For the meta-evaluation datasets which are created
greatly depending on the reference and thus are biased, the ChatGPT evaluator
might lose its effectiveness. We hope our preliminary study could prompt the
emergence of a general-purposed reliable NLG metric.
- Abstract(参考訳): 近年、ChatGPTの出現は、計算言語学コミュニティから広く注目を集めている。
多くの先行研究により、ChatGPTは自動評価指標を用いて様々なNLPタスクにおいて顕著な性能を発揮することが示されている。
しかし、ChatGPTが評価指標として機能する能力はまだ未定である。
自然言語生成モデル(NLG)の質を評価することは困難な作業であり、NLGの指標は人間の判断と相関が低いことで悪名高いことから、ChatGPTは優れたNLG評価指標であるのだろうか。
本稿では,その信頼性を NLG 測定値として示すため,ChatGPT の予備メタ評価を行う。
より詳しくは、ChatGPTを人間評価器とみなし、タスク固有(例えば、要約)とアスペクト固有(例えば、関連)の指示を与えて、ChatGPTにNLGモデルの生成された結果を評価する。
我々は5つのNLGメタ評価データセット(要約、ストーリー生成、データ・トゥ・テキストタスクを含む)について実験を行った。
実験の結果,ChatGPTは従来の自動測定値と比較すると,ほとんどの場合,人間の判断と最先端あるいは競合的な相関が得られた。
さらに,ChatGPT評価器の有効性は,メタ評価データセットの作成方法の影響を受けている可能性が示唆された。
参照に大きく依存して生成されるメタ評価データセットに対して、ChatGPT評価器は効果を失う可能性がある。
我々の予備研究は、汎用的な信頼性NLGメトリックの出現を促すことを願っている。
関連論文リスト
- Using ChatGPT to Score Essays and Short-Form Constructed Responses [0.0]
線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点をあてた調査。
2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。
研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。
論文 参考訳(メタデータ) (2024-08-18T16:51:28Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Evaluating ChatGPT as a Recommender System: A Rigorous Approach [12.458752059072706]
本稿では,ChatGPTのRSとしての能力とプロセス後ChatGPTレコメンデーションを評価するためのロバストな評価パイプラインを提案する。
モデルの機能は,トップNレコメンデーション,コールドスタートレコメンデーション,リコメンデーションリストの再ランクの3つの設定で分析する。
論文 参考訳(メタデータ) (2023-09-07T10:13:09Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - Evaluating ChatGPT's Information Extraction Capabilities: An Assessment
of Performance, Explainability, Calibration, and Faithfulness [18.945934162722466]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。
標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。
ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文 参考訳(メタデータ) (2023-04-23T12:33:18Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on
Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。
幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。
テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文 参考訳(メタデータ) (2023-03-14T03:13:02Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。