論文の概要: Are Large Language Models Good Evaluators for Abstractive Summarization?
- arxiv url: http://arxiv.org/abs/2305.13091v1
- Date: Mon, 22 May 2023 14:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:16:54.264019
- Title: Are Large Language Models Good Evaluators for Abstractive Summarization?
- Title(参考訳): 大規模言語モデルは抽象要約に適しているか?
- Authors: Chenhui Shen, Liying Cheng, Yang You, Lidong Bing
- Abstract要約: 「gpt-3.5-turbo」はデモや複雑なプロンプトチューニングを手動で選択することなく、要約評価に使用できる。
評価法は,2つの評価法と1つの評価法を比較した。
特定のプロンプトフォーマットは、他のフォーマットよりも優れた結果が得られることを示す。
- 参考スコア(独自算出の注目度): 34.367245532934085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human evaluations are often required for abstractive summary evaluations to
give fairer judgments. However, they are often time-consuming, costly,
inconsistent, and non-reproducible. To overcome these challenges, we explore
the potential of using an out-of-the-box LLM (i.e. "gpt-3.5-turbo") for
summarization evaluation without manually selecting demonstrations or complex
prompt tuning. We compare different evaluation methods, including 2 methods for
Likert-scale scoring and 1 method for head-to-head comparisons, to investigate
the performance of the LLM as a zero-shot evaluator. We further propose a
meta-correlation metric to measure the stability of the LLM's evaluation
capability. With extensive experiments, we show that certain prompt formats can
produce better results than others. We also bring attention to the LLM's
deteriorating evaluation capability with the rising qualities of summaries. In
addition, we find that the LLM's evaluation capability also depends on the
evaluated dimensions. We discuss the pros and cons of each method, make
recommendations, and suggest some future directions for improvement.
- Abstract(参考訳): 人間の評価は、より公平な判断を与えるために抽象的な要約評価のためにしばしば必要となる。
しかし、それらはしばしば時間がかかり、コストがかかり、一貫性がなく、再現できない。
これらの課題を克服するために,実演や複雑なプロンプトチューニングを手作業で選択することなく,既製のLLM(すなわち「gpt-3.5-turbo」)を用いて要約評価を行う可能性を探る。
ゼロショット評価器としてのLLMの性能を検討するために,2つの評価法と1つの評価法を比較した。
さらに,LLMの評価能力の安定性を測定するメタ相関指標を提案する。
広範な実験により、特定のプロンプトフォーマットが他のフォーマットよりも優れた結果をもたらすことを示す。
また,要約の質向上とともに,llmの劣化評価能力にも注目する。
また,LLMの評価能力は評価次元にも依存することがわかった。
我々は,各手法の長所と短所を議論し,レコメンデーションを行い,改善のための今後の方向性を提案する。
関連論文リスト
- Decoding Biases: Automated Methods and LLM Judges for Gender Bias Detection in Language Models [47.545382591646565]
大きな言語モデル(LLM)は、言語理解と人間レベルのテキストの生成に優れています。
LLMは、悪意のあるユーザーがモデルに望ましくないテキストを生成するよう促す敵攻撃の影響を受けやすい。
本研究では,対象のLSMから偏りのある応答を抽出する逆方向のプロンプトを自動生成するモデルを訓練する。
論文 参考訳(メタデータ) (2024-08-07T17:11:34Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [46.949604465227054]
そこで我々は,MAD(Maximum Discrepancy)コンペティションに基づく,サンプル効率のよい人的評価手法を提案する。
MAD は2つの LLM に適応した情報的かつ多様な命令群を自動的に選択する。
ペア比較の結果は、Eloレーティングシステムを用いてグローバルランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - An In-depth Evaluation of GPT-4 in Sentence Simplification with
Error-based Human Assessment [10.816677544269782]
我々は,GPT-4の単純化機能を評価するために,エラーベースのヒューマンアノテーションフレームワークを設計する。
その結果, GPT-4は, 現在の最先端技術と比較して, 誤りの低減出力が少ないことがわかった。
論文 参考訳(メタデータ) (2024-03-08T00:19:24Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Text Style Transfer Evaluation Using Large Language Models [24.64611983641699]
大きな言語モデル(LLM)は、平均的な人間のパフォーマンスにマッチし、さらに超える能力を示している。
複数の入力プロンプトを用いて、TSTにおける異なるLLMの結果を比較した。
この結果から,LLMが従来の自動測定値より優れていることが示唆された(ゼロショットでも)。
論文 参考訳(メタデータ) (2023-08-25T13:07:33Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。