論文の概要: Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2305.13091v2
- Date: Fri, 20 Oct 2023 03:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 07:51:47.617054
- Title: Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization
- Title(参考訳): 抽象要約のための大規模言語モデルはまだ人間レベル評価器ではない
- Authors: Chenhui Shen, Liying Cheng, Xuan-Phi Nguyen, Yang You, Lidong Bing
- Abstract要約: 抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
- 参考スコア(独自算出の注目度): 66.08074487429477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent undeniable advancement in reasoning abilities in large
language models (LLMs) like ChatGPT and GPT-4, there is a growing trend for
using LLMs on various tasks. One area where LLMs can be employed is as an
alternative evaluation metric for complex generative tasks, which generally
demands expensive human judges to complement the traditional automatic metrics
for various evaluation dimensions such as fluency and consistency. In this
work, we conduct extensive analysis to investigate the stability and
reliability of LLMs as automatic evaluators for abstractive summarization. We
found that while ChatGPT and GPT-4 outperform the commonly used automatic
metrics, they are not ready as human replacements due to significant
limitations. That is, LLM evaluators rate each candidate system inconsistently
and are dimension-dependent. They also struggle to compare candidates with
close performance and become more unreliable with higher-quality summaries by
obtaining a lower correlation with humans. In other words, with better
abstractive summarization systems being introduced at a fast pace, LLMs may
result in misleading and unreliable evaluations.
- Abstract(参考訳): 近年,ChatGPT や GPT-4 のような大規模言語モデル (LLM) における推論能力の進歩に伴い,様々なタスクで LLM を使用する傾向が高まっている。
llmが採用できる分野の1つは、複雑な生成タスクの代替評価指標であり、一般的には、高コストな人間の判断者に、流束や一貫性といった様々な評価次元の伝統的な自動測定基準を補完するよう要求する。
本研究では, 抽象要約のための自動評価器として, LLMの安定性と信頼性について広範な解析を行った。
その結果、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、大きな制限があるため、人間の代替には適していません。
すなわち、LLM評価器は各候補系を矛盾なく評価し、次元に依存している。
また、人間との相関を低くすることで、より高品質なサマリーよりも、より信頼できないものとなる。
言い換えれば、より優れた抽象的な要約システムが高速に導入されれば、LLMは誤解を招く可能性があり、信頼できない評価をもたらす。
関連論文リスト
- Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。