論文の概要: Zero-shot NLG evaluation through Pairware Comparisons with LLMs
- arxiv url: http://arxiv.org/abs/2307.07889v1
- Date: Sat, 15 Jul 2023 22:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:07:42.535916
- Title: Zero-shot NLG evaluation through Pairware Comparisons with LLMs
- Title(参考訳): LLMとの比較によるゼロショットNLG評価
- Authors: Adian Liusie, Potsawee Manakul, Mark J. F. Gales
- Abstract要約: 自然言語生成(NLG)のアウトプットを評価することは重要であるが、労力がかかり高価である。
オープンソースのLarge Language Models (LLMs) を用いたペアワイズ比較判定によるNLG評価に対する頑健なゼロショットアプローチを提案する。
以上の結果から,比較評価は絶対的な評価よりも効果的な手法であり,より小さなオープンソース LLM がより大規模な公開アクセスAPIに匹敵する性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 35.62056245837563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Natural Language Generation (NLG) outputs is crucial but laborious
and expensive. While various automatic NLG assessment methods have been
proposed, they often are quite task-specific and have to be engineered with a
particular domain and attribute in mind. In this work, we propose a robust
zero-shot approach to NLG evaluation using pairwise comparative judgment with
open-source Large Language Models (LLMs). The motivation for this approach is
that even as humans, it is easier to determine which of two options are better,
than it is to independently objectively score each option. We use this insight
and leverage the emergent abilities of LLMs, where we probe FlanT5 to determine
which of two candidate responses is better, rather than assigning absolute
scores. Our results demonstrate that comparative assessment is a more effective
approach than absolute scoring, enabling smaller open-source LLMs to achieve
comparable performance to larger public access APIs. We evaluate systems on
both summary evaluation and dialogue response generation, and show that
opensource LLMs can lead to good correlations with human scores for a range of
different attributes.
- Abstract(参考訳): 自然言語生成(nlg)アウトプットの評価は重要だが、労力とコストがかかる。
様々な自動NLG評価手法が提案されているが、それらはタスク固有であり、特定のドメインと属性を念頭に設計する必要があることが多い。
本研究では,オープンソースのLarge Language Models (LLMs) を用いたペアワイズ比較判定を用いたNLG評価に対する頑健なゼロショット手法を提案する。
このアプローチのモチベーションは、人間であるとしても、2つの選択肢のどちらが良いかを決定するのが、それぞれの選択肢を独立して客観的にスコアするよりも容易であることです。
我々はこの知見を用いてLLMの創発的能力を活用し、そこでFlanT5を探索し、絶対スコアを割り当てるのではなく、2つの候補応答のどちらが良いかを判断する。
以上の結果から,比較評価は絶対的な評価よりも効果的な手法であり,より小さなオープンソース LLM がより大規模な公開アクセスAPIに匹敵する性能を達成できることが示唆された。
我々は,要約評価と対話応答生成の両方のシステム評価を行い,オープンソース LLM が様々な属性に対して,人間のスコアと良好な相関関係を持つことを示す。
関連論文リスト
- Finetuning LLMs for Comparative Assessment Tasks [9.05771474043499]
比較評価のための大規模言語モデルを微調整するためのフレームワークを提案する。
ソフト確率のトレーニングにより,本手法は最先端の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-24T11:21:43Z) - The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。
LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。
ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文 参考訳(メタデータ) (2024-06-18T06:43:04Z) - Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。
個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。
PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文 参考訳(メタデータ) (2024-05-09T16:45:27Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。