論文の概要: PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations
- arxiv url: http://arxiv.org/abs/2307.02762v1
- Date: Thu, 6 Jul 2023 04:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:13:04.103388
- Title: PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations
- Title(参考訳): PRD: 大規模言語モデルに基づく評価を改善するピアランクと考察
- Authors: Ruosen Li, Teerth Patel, Xinya Du
- Abstract要約: 大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
- 参考スコア(独自算出の注目度): 8.49315902032444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, the quality of responses generated by different modern large
language models (LLMs) are hard to evaluate and compare automatically. Recent
studies suggest and predominantly use LLMs as a reference-free metric for
open-ended question answering. More specifically, they use the recognized
"strongest" LLM as the evaluator, which conducts pairwise comparisons of
candidate models' answers and provides a ranking score. However, this intuitive
method has multiple problems, such as bringing in self-enhancement (favoring
its own answers) and positional bias. We draw insights and lessons from the
educational domain (Cho and MacArthur, 2011; Walsh, 2014) to improve LLM-based
evaluations. Specifically, we propose the (1) peer rank (PR) algorithm that
takes into account each peer LLM's pairwise preferences of all answer pairs,
and outputs a final ranking of models; and (2) peer discussion (PD), where we
prompt two LLMs to discuss and try to reach a mutual agreement on preferences
of two answers. We conduct experiments on two benchmark datasets. We find that
our approaches achieve higher accuracy and align better with human judgments,
respectively. Interestingly, PR can induce a relatively accurate self-ranking
of models under the anonymous setting, where each model's name is unrevealed.
Our work provides space to explore evaluating models that are hard to compare
for humans.
- Abstract(参考訳): 現在、様々な現代大言語モデル(LLM)が生成する応答の質は、自動で評価・比較することが困難である。
近年の研究では、LLMをオープンエンド質問応答の基準自由度として主に用いている。
より具体的には、彼らは「最も強い」llmを評価器として使用し、候補モデルの答えをペアで比較し、ランキングスコアを提供する。
しかし、この直感的な手法には、自己強調(自身の答えを好む)や位置バイアスなど、複数の問題がある。
教育領域(Cho and MacArthur, 2011; Walsh, 2014)からLLMに基づく評価を改善するための洞察と教訓を引き出す。
具体的には,(1)ピア・ランク(pr)アルゴリズムを提案し,各ピア・llmの対方向選好を考慮し,モデルの最終的なランキングを出力し,(2)ピア・ディベーション(pd)により,2つの回答の選好について議論し,相互合意に達するように促す。
我々は2つのベンチマークデータセットで実験を行う。
私たちのアプローチは、より高い精度を達成し、それぞれ人間の判断とよりよく一致していることが分かりました。
興味深いことに、prは匿名設定の下で比較的正確なモデルの自己組織化を誘導することができる。
私たちの研究は、人間と比較しにくいモデルを評価するスペースを提供する。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。