Fugu-MT 論文翻訳(概要): Is ChatGPT a Good NLG Evaluator? A Preliminary Study

論文の概要: Is ChatGPT a Good NLG Evaluator? A Preliminary Study

arxiv url: http://arxiv.org/abs/2303.04048v1
Date: Tue, 7 Mar 2023 16:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-08 14:26:02.242878
Title: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
Title（参考訳）: chatgptは優れたnlgエバブリエーターか? 予備的研究
Authors: Jiaan Wang, Yunlong Liang, Fandong Meng, Haoxiang Shi, Zhixu Li, Jinan Xu, Jianfeng Qu, Jie Zhou
Abstract要約: ChatGPTは、計算言語学コミュニティから広く注目を集めている。広く使われている3つのNLGメタ評価データセットについて実験を行った。その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
参考スコア（独自算出の注目度）: 55.07107878081161
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the emergence of ChatGPT has attracted wide attention from the computational linguistics community. Many prior studies have shown that ChatGPT achieves remarkable performance on various NLP tasks in terms of automatic evaluation metrics. However, the ability of ChatGPT to serve as an evaluation metric is still underexplored. Considering assessing the quality of NLG models is an arduous task and previous statistical metrics notoriously show their poor correlation with human judgments, we wonder whether ChatGPT is a good NLG evaluation metric. In this report, we provide a preliminary meta-evaluation on ChatGPT to show its reliability as an NLG metric. In detail, we regard ChatGPT as a human evaluator and give task-specific (e.g., summarization) and aspect-specific (e.g., relevance) instruction to prompt ChatGPT to score the generation of NLG models. We conduct experiments on three widely-used NLG meta-evaluation datasets (including summarization, story generation and data-to-text tasks). Experimental results show that compared with previous automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation with golden human judgments. We hope our preliminary study could prompt the emergence of a general-purposed reliable NLG metric.
Abstract（参考訳）: 近年、ChatGPTの出現は、計算言語学コミュニティから広く注目を集めている。多くの先行研究により、ChatGPTは自動評価指標を用いて様々なNLPタスクにおいて顕著な性能を発揮することが示されている。しかし、ChatGPTが評価指標として機能する能力はまだ未定である。 NLGモデルの質を評価することは困難な作業であり、従来の統計指標は人間の判断と相関が低いことで悪名高いことから、ChatGPTが優れたNLG評価指標であるかどうか疑問である。本稿では,その信頼性を NLG 測定値として示すため,ChatGPT の予備メタ評価を行う。より詳しくは、ChatGPTを人間評価器とみなし、タスク特化(例えば、要約)とアスペクト特化(例えば、関連性)の指示を与えて、ChatGPTにNLGモデルの生成を促す。我々は,広く利用されている3つのNLGメタ評価データセット(要約,ストーリ生成,テキスト間タスクなど)について実験を行った。実験結果から,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関が得られた。我々の予備研究は、汎用的な信頼性NLGメトリックの出現を促すことを願っている。

関連論文リスト

Using ChatGPT to Score Essays and Short-Form Constructed Responses [0.0]
線形回帰、ランダム森林、勾配上昇、隆起など、様々な予測モデルに焦点をあてた調査。 2次重み付きカッパ(QWK)測定値を用いてChatGPTの性能評価を行った。研究は、ChatGPTは人間のスコアを補完するが、高い評価を得るためにはさらなる開発が必要であると結論付けている。
論文参考訳（メタデータ） (2024-08-18T16:51:28Z)
Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文参考訳（メタデータ） (2023-11-14T14:56:33Z)
Evaluating ChatGPT as a Recommender System: A Rigorous Approach [12.458752059072706]
本稿では,ChatGPTのRSとしての能力とプロセス後ChatGPTレコメンデーションを評価するためのロバストな評価パイプラインを提案する。モデルの機能は,トップNレコメンデーション,コールドスタートレコメンデーション,リコメンデーションリストの再ランクの3つの設定で分析する。
論文参考訳（メタデータ） (2023-09-07T10:13:09Z)
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文参考訳（メタデータ） (2023-05-29T12:37:21Z)
ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。 2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文参考訳（メタデータ） (2023-04-27T11:33:48Z)
Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness [18.945934162722466]
7つのきめ細かい情報抽出(IE)タスクを用いてChatGPTの全体的な能力を評価することに集中する。標準IE設定でのChatGPTのパフォーマンスは劣っているが、OpenIE設定では驚くほど優れたパフォーマンスを示している。 ChatGPTは、その決定に対して高品質で信頼できる説明を提供する。
論文参考訳（メタデータ） (2023-04-23T12:33:18Z)
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。 GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文参考訳（メタデータ） (2023-03-29T12:46:54Z)
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences [6.821378903525802]
ChatGPTは、コンテンツ評価における精度と信頼性の顕著なレベルを一貫して証明している。幅広いユースケースをカバーするプロンプトからなるテストセットを作成し、5つのモデルを使用して対応する応答を生成する。テストセットの結果は、ChatGPTのランク設定が人間とある程度一致していることを示している。
論文参考訳（メタデータ） (2023-03-14T03:13:02Z)
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。 2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文参考訳（メタデータ） (2023-02-19T12:29:33Z)
Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。 ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文参考訳（メタデータ） (2023-02-08T09:44:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。