論文の概要: G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment
- arxiv url: http://arxiv.org/abs/2303.16634v3
- Date: Tue, 23 May 2023 22:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 01:31:40.516879
- Title: G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment
- Title(参考訳): G-Eval:ヒトのアライメントが向上したGPT-4を用いたNLG評価
- Authors: Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu and
Chenguang Zhu
- Abstract要約: 本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
- 参考スコア(独自算出の注目度): 64.01972723692587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The quality of texts generated by natural language generation (NLG) systems
is hard to measure automatically. Conventional reference-based metrics, such as
BLEU and ROUGE, have been shown to have relatively low correlation with human
judgments, especially for tasks that require creativity and diversity. Recent
studies suggest using large language models (LLMs) as reference-free metrics
for NLG evaluation, which have the benefit of being applicable to new tasks
that lack human references. However, these LLM-based evaluators still have
lower human correspondence than medium-size neural evaluators. In this work, we
present G-Eval, a framework of using large language models with
chain-of-thoughts (CoT) and a form-filling paradigm, to assess the quality of
NLG outputs. We experiment with two generation tasks, text summarization and
dialogue generation. We show that G-Eval with GPT-4 as the backbone model
achieves a Spearman correlation of 0.514 with human on summarization task,
outperforming all previous methods by a large margin. We also propose
preliminary analysis on the behavior of LLM-based evaluators, and highlight the
potential issue of LLM-based evaluators having a bias towards the LLM-generated
texts. The code is at https://github.com/nlpyang/geval
- Abstract(参考訳): 自然言語生成システム(NLG)が生成するテキストの品質を自動測定することは困難である。
BLEUやROUGEのような従来の基準ベースのメトリクスは、人間の判断、特に創造性と多様性を必要とするタスクに対して、相対的に低い相関があることが示されている。
近年の研究では、人間の参照を欠く新しいタスクに適用できるという利点がある、NLG評価のための基準のない指標として、大規模言語モデル(LLM)を使用することが提案されている。
しかしながら、これらのLDMベースの評価器は、中規模の神経評価器よりも人間との対応が低い。
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)とフォームフィリング・パラダイムを併用し,NLG出力の品質を評価するフレームワークであるG-Evalを提案する。
テキスト要約と対話生成という2つの世代タスクを実験する。
gpt-4 をバックボーンモデルとした g-eval は, 総和作業において 0.514 のスピアマン相関を達成し, 従来の手法を大差で上回った。
また, LLM に基づく評価器の挙動を予備解析し, LLM 生成テキストに対するバイアスを有する LLM に基づく評価器の可能性を明らかにする。
コードはhttps://github.com/nlpyang/gevalにある。
関連論文リスト
- Benchmarking LLMs' Judgments with No Gold Standard [8.517244114791913]
GEM(Generative Estimator for Mutual Information)は,Large Language Models (LLMs) による言語生成を評価するための評価指標である。
人間の注釈付きデータセットの実験では、GEMは最先端のGPT-4o Examinerと比較して、人間のスコアと競合する相関を示す。
また,学術論文の良質なピアレビューをいかに生み出すかに基づいて,LCMを評価したGREベンチについても紹介する。
論文 参考訳(メタデータ) (2024-11-11T16:58:36Z) - Themis: A Reference-free NLG Evaluation Language Model with Flexibility and Interpretability [39.12792986841385]
本稿では,人間とGPT-4のアノテーションを用いた大規模NLG評価コーパスNLG-Evalを構築した。
また,NLG 評価専用の LLM を提案する。この LLM は,設計した多視点整合性検証と評価指向の選好アライメント手法を用いて訓練されている。
Themis は様々な NLG タスクに対して優れた評価性能を示し、同時に未確認タスクを一般化し、GPT-4 など他の評価モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-26T14:04:29Z) - LLM-based NLG Evaluation: Current Status and Challenges [41.69249290537395]
自然言語生成(NLG)を評価することは、人工知能において不可欠だが難しい問題である。
大規模言語モデル (LLM) は近年, NLG 評価において大きな可能性を示している。
LLMに基づく各種自動評価手法が提案されている。
論文 参考訳(メタデータ) (2024-02-02T13:06:35Z) - Unsupervised Approach to Evaluate Sentence-Level Fluency: Do We Really
Need Reference? [3.2528685897001455]
本報告では,参照を必要とせず,既存の教師なし手法を用いてテキストの流速を計測する。
提案手法では,様々な単語埋め込みを活用し,RNNアーキテクチャを用いて言語モデルを訓練する。
モデルの性能を評価するため,10言語を対象に比較分析を行った。
論文 参考訳(メタデータ) (2023-12-03T20:09:23Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。