Fugu-MT 論文翻訳(概要): LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models

論文の概要: LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models

arxiv url: http://arxiv.org/abs/2307.07889v3
Date: Tue, 6 Feb 2024 17:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 20:39:05.416482
Title: LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models
Title（参考訳）: LLM比較評価:大規模言語モデルを用いたペアワイズ比較によるゼロショットNLG評価
Authors: Adian Liusie, Potsawee Manakul, Mark J. F. Gales
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
参考スコア（独自算出の注目度）: 55.60306377044225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current developments in large language models (LLMs) have enabled impressive zero-shot capabilities across various natural language tasks. An interesting application of these systems is in the automated assessment of natural language generation (NLG), a highly challenging area with great practical benefit. In this paper, we explore two options for exploiting the emergent abilities of LLMs for zero-shot NLG assessment: absolute score prediction, and comparative assessment which uses relative comparisons between pairs of candidates. Though comparative assessment has not been extensively studied in NLG assessment, we note that humans often find it more intuitive to compare two options rather than scoring each one independently. This work examines comparative assessment from multiple perspectives: performance compared to absolute grading; positional biases in the prompt; and efficient ranking in terms of the number of comparisons. We illustrate that LLM comparative assessment is a simple, general and effective approach for NLG assessment. For moderate-sized open-source LLMs, such as FlanT5 and Llama2-chat, comparative assessment is superior to prompt scoring, and in many cases can achieve performance competitive with state-of-the-art methods. Additionally, we demonstrate that LLMs often exhibit strong positional biases when making pairwise comparisons, and we propose debiasing methods that can further improve performance.
Abstract（参考訳）: 大規模言語モデル(LLM)の現在の開発は、様々な自然言語タスクで印象的なゼロショット機能を実現している。これらのシステムの興味深い応用として、自然言語生成(NLG)の自動評価がある。本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 NLG評価において比較評価は広く研究されていないが、人間は個別に評価するよりも2つの選択肢を比較する方が直感的であることが多い。本研究は,複数の視点から比較評価を行う: 絶対的な評価と比較する性能,プロンプトにおける位置バイアス,比較数の観点からの効率的なランキング。 LLM比較評価はNLG評価における単純で汎用的で効果的なアプローチであることを示す。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。さらに,対数比較を行う場合,llmは位置偏りが強いことを実証し,さらに性能を向上させるデバイアス手法を提案する。

関連論文リスト

LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models [0.46040036610482665]
本稿では,AESをペア比較タスクとして定式化する方法であるLCES(Comparent Essay Scoring)を提案する。具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。 AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
論文参考訳（メタデータ） (2025-05-13T12:26:16Z)
Finetuning LLMs for Comparative Assessment Tasks [9.05771474043499]
比較評価のための大規模言語モデルを微調整するためのフレームワークを提案する。ソフト確率のトレーニングにより,本手法は最先端の性能を向上させる。
論文参考訳（メタデータ） (2024-09-24T11:21:43Z)
The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。 LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文参考訳（メタデータ） (2024-06-18T06:43:04Z)
Efficient LLM Comparative Assessment: a Product of Experts Framework for Pairwise Comparisons [10.94304714004328]
本稿では,効率的な比較評価のためのPoE(Product of Expert)フレームワークを紹介する。個人比較は、ペアのスコア差に関する情報を提供する専門家と見なされる。 PoEフレームワークは、これらの専門家からの情報を組み合わせて、基礎となる候補セットに関して最大化できる表現を生成する。
論文参考訳（メタデータ） (2024-05-09T16:45:27Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。