論文の概要: Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2305.13091v2
- Date: Fri, 20 Oct 2023 03:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 07:51:47.617054
- Title: Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization
- Title(参考訳): 抽象要約のための大規模言語モデルはまだ人間レベル評価器ではない
- Authors: Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing
- Abstract要約: 抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
- 参考スコア(独自算出の注目度): 66.08074487429477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent undeniable advancement in reasoning abilities in large
language models (LLMs) like ChatGPT and GPT-4, there is a growing trend for
using LLMs on various tasks. One area where LLMs can be employed is as an
alternative evaluation metric for complex generative tasks, which generally
demands expensive human judges to complement the traditional automatic metrics
for various evaluation dimensions such as fluency and consistency. In this
work, we conduct extensive analysis to investigate the stability and
reliability of LLMs as automatic evaluators for abstractive summarization. We
found that while ChatGPT and GPT-4 outperform the commonly used automatic
metrics, they are not ready as human replacements due to significant
limitations. That is, LLM evaluators rate each candidate system inconsistently
and are dimension-dependent. They also struggle to compare candidates with
close performance and become more unreliable with higher-quality summaries by
obtaining a lower correlation with humans. In other words, with better
abstractive summarization systems being introduced at a fast pace, LLMs may
result in misleading and unreliable evaluations.
- Abstract(参考訳): 近年,ChatGPT や GPT-4 のような大規模言語モデル (LLM) における推論能力の進歩に伴い,様々なタスクで LLM を使用する傾向が高まっている。
llmが採用できる分野の1つは、複雑な生成タスクの代替評価指標であり、一般的には、高コストな人間の判断者に、流束や一貫性といった様々な評価次元の伝統的な自動測定基準を補完するよう要求する。
本研究では, 抽象要約のための自動評価器として, LLMの安定性と信頼性について広範な解析を行った。
その結果、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、大きな制限があるため、人間の代替には適していません。
すなわち、LLM評価器は各候補系を矛盾なく評価し、次元に依存している。
また、人間との相関を低くすることで、より高品質なサマリーよりも、より信頼できないものとなる。
言い換えれば、より優れた抽象的な要約システムが高速に導入されれば、LLMは誤解を招く可能性があり、信頼できない評価をもたらす。
関連論文リスト
- An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on
Zero-shot LLM Assessment [10.05719021957877]
テキストに付加された場合,LLMを騙して高い評価スコアを与える,短い普遍的なフレーズを検索する。
SummEval と TopicalChat の実験では、単純な結合攻撃に対して LLM-scoring と 2 対 LLM-comparativeアセスメントの両方が脆弱であることが示された。
これは、さまざまな判断-LLMサイズ、ファミリー、メソッドにまたがる敵の脆弱性の広範性を強調します。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Are Large Language Models Reliable Judges? A Study on the Factuality
Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。
本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文 参考訳(メタデータ) (2023-11-01T17:42:45Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。