論文の概要: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
- arxiv url: http://arxiv.org/abs/2303.04048v1
- Date: Tue, 7 Mar 2023 16:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:26:02.242878
- Title: Is ChatGPT a Good NLG Evaluator? A Preliminary Study
- Title(参考訳): chatgptは優れたnlgエバブリエーターか?
予備的研究
- Authors: Jiaan Wang, Yunlong Liang, Fandong Meng, Haoxiang Shi, Zhixu Li, Jinan
Xu, Jianfeng Qu, Jie Zhou
- Abstract要約: ChatGPTは、計算言語学コミュニティから広く注目を集めている。
広く使われている3つのNLGメタ評価データセットについて実験を行った。
その結果,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関を達成できた。
- 参考スコア(独自算出の注目度): 55.07107878081161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the emergence of ChatGPT has attracted wide attention from the
computational linguistics community. Many prior studies have shown that ChatGPT
achieves remarkable performance on various NLP tasks in terms of automatic
evaluation metrics. However, the ability of ChatGPT to serve as an evaluation
metric is still underexplored. Considering assessing the quality of NLG models
is an arduous task and previous statistical metrics notoriously show their poor
correlation with human judgments, we wonder whether ChatGPT is a good NLG
evaluation metric. In this report, we provide a preliminary meta-evaluation on
ChatGPT to show its reliability as an NLG metric. In detail, we regard ChatGPT
as a human evaluator and give task-specific (e.g., summarization) and
aspect-specific (e.g., relevance) instruction to prompt ChatGPT to score the
generation of NLG models. We conduct experiments on three widely-used NLG
meta-evaluation datasets (including summarization, story generation and
data-to-text tasks). Experimental results show that compared with previous
automatic metrics, ChatGPT achieves state-of-the-art or competitive correlation
with golden human judgments. We hope our preliminary study could prompt the
emergence of a general-purposed reliable NLG metric.
- Abstract(参考訳): 近年、ChatGPTの出現は、計算言語学コミュニティから広く注目を集めている。
多くの先行研究により、ChatGPTは自動評価指標を用いて様々なNLPタスクにおいて顕著な性能を発揮することが示されている。
しかし、ChatGPTが評価指標として機能する能力はまだ未定である。
NLGモデルの質を評価することは困難な作業であり、従来の統計指標は人間の判断と相関が低いことで悪名高いことから、ChatGPTが優れたNLG評価指標であるかどうか疑問である。
本稿では,その信頼性を NLG 測定値として示すため,ChatGPT の予備メタ評価を行う。
より詳しくは、ChatGPTを人間評価器とみなし、タスク特化(例えば、要約)とアスペクト特化(例えば、関連性)の指示を与えて、ChatGPTにNLGモデルの生成を促す。
我々は,広く利用されている3つのNLGメタ評価データセット(要約,ストーリ生成,テキスト間タスクなど)について実験を行った。
実験結果から,ChatGPTは従来の自動測定値と比較して,黄金の人間の判断と最先端あるいは競合的な相関が得られた。
我々の予備研究は、汎用的な信頼性NLGメトリックの出現を促すことを願っている。
関連論文リスト
- On the Robustness of ChatGPT: An Adversarial and Out-of-distribution
Perspective [33.29696484731941]
本研究は,ChatGPTの強靭性について,敵対的視点とアウト・オブ・ディストリビューションOODの観点から評価する。
以上の結果から,ChatGPTは敵対的・OOD分類タスクにおいて一貫した優位性を示すものではないことが示唆された。
ChatGPTは対話関連テキストの理解において驚くべきパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-02-22T11:01:20Z) - ChatGPT: Jack of all trades, master of none [4.693597927153063]
OpenAIはChat Generative Pre-trained Transformer (ChatGPT)をリリースした。
25種類のNLPタスクにおけるChatGPTの機能について検討した。
本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性を示すかどうか,基本的な議論の基盤となるものである。
論文 参考訳(メタデータ) (2023-02-21T15:20:37Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Exploring the Limits of ChatGPT for Query or Aspect-based Text
Summarization [28.104696513516117]
GPT3やChatGPTのような大規模言語モデル(LLM)は、テキスト要約タスクにこれらのモデルを使用することに大きな関心を寄せている。
最近の研究では、zhang2023ベンチマーキング(zhang2023benchmarking)は、LLMの生成するニュースサマリーがすでに人間と同等であることを示している。
実験の結果,ChatGPTの性能はルージュスコアの点で従来の微調整手法に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-02-16T04:41:30Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [53.921556555662214]
我々は、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を、21の公開データセットに基づいて評価する。
また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。
ChatGPTは論理的推論、非テキスト的推論、コモンセンス推論の10種類の推論カテゴリにおいて平均64.33%正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [74.04014979270966]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。