Fugu-MT 論文翻訳(概要): PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

論文の概要: PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

arxiv url: http://arxiv.org/abs/2307.02762v2
Date: Wed, 3 Jul 2024 04:34:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 20:52:46.270658
Title: PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations
Title（参考訳）: PRD: 大規模言語モデルに基づく評価を改善するピアランクと考察
Authors: Ruosen Li, Teerth Patel, Xinya Du,
Abstract要約: 現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
参考スコア（独自算出の注目度）: 10.709365940160685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, the quality of responses generated by different modern large language models (LLMs) is hard to evaluate and compare automatically. Recent studies suggest and predominantly use LLMs for reference-free evaluation of open-ended question answering. More specifically, they use the recognized "strongest" LLM as the evaluator, which conducts pairwise comparisons of candidate models' answers and provides a ranking score. However, this intuitive method has multiple problems, such as bringing in self-enhancement (favoring its own answers) and positional bias. We draw insights and lessons from the educational domain (Cho & MacArthur, 2011; Walsh, 2014) to improve LLM-based evaluations. Specifically, we propose (1) the peer rank (PR) algorithm that takes into account each peer LLM's pairwise preferences of all answer pairs, and outputs a final ranking of models; and (2) peer discussion (PD), where we prompt two LLMs to discuss and try to reach a mutual agreement on the preferences of two answers. We conduct experiments on two benchmark datasets. We find that our approaches achieve higher accuracy and align better with human judgments. Interestingly, PR can induce a relatively accurate self-ranking of models under the anonymous setting, where each model's name is unrevealed. Our work provides space to explore evaluating models that are hard to compare for humans.
Abstract（参考訳）: 現在、様々な現代大言語モデル(LLM)が生成する応答の質は、自動で評価・比較することが困難である。最近の研究は、オープンエンド質問応答の基準フリー評価にLLMを主に用いていることを示唆している。より具体的には、彼らは認識された「最高の」LCMを評価器として使用し、候補モデルの回答を相互に比較し、ランキングスコアを提供する。しかし、この直感的な手法には、自己強調(自身の答えを好む)や位置バイアスなど、複数の問題がある。教育領域(Cho & MacArthur, 2011; Walsh, 2014)からLLMに基づく評価を改善するための洞察と教訓を導き出す。具体的には,(1)LLMの各ペアのペアの選好を考慮に入れたピアランク(PR)アルゴリズムを提案し,モデルの最終選好を出力し,(2)LLMの2つの選好を議論し,相互に一致させようとするピアディスカッション(PD)を提案する。 2つのベンチマークデータセットで実験を行う。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。興味深いことに、PRは匿名設定の下でモデルの比較的正確な自己ランク付けを誘導することができる。私たちの研究は、人間と比較しにくいモデルを評価するためのスペースを提供する。

関連論文リスト

PeerRank: Autonomous LLM Evaluation Through Web-Grounded, Bias-Controlled Peer Review [1.2178992475191557]
完全自律的なエンドツーエンド評価フレームワークであるPeerRankを紹介します。モデルは評価タスクを生成し、カテゴリスコープによるライブWebグラウンドで答える。 PeerRankは評価を、各モデルがタスクデザイナ、応答者、評価者として対称に参加するマルチエージェントプロセスとして扱う。
論文参考訳（メタデータ） (2026-02-01T06:01:28Z)
Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文参考訳（メタデータ） (2025-12-29T05:25:49Z)
JudgeBoard: Benchmarking and Enhancing Small Language Models for Reasoning Evaluation [13.831735556002426]
小型言語モデル(SLM)は様々な推論タスクを約束している。解答の正しさを判断する能力は、大言語モデル(LLM)と比較しても明らかでない。
論文参考訳（メタデータ） (2025-11-20T01:14:39Z)
From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文参考訳（メタデータ） (2025-05-10T16:52:40Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。 1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、お互いの反応を評価してランキングを作成する。感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文参考訳（メタデータ） (2024-06-12T19:05:43Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文参考訳（メタデータ） (2024-02-21T00:49:43Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。 FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文参考訳（メタデータ） (2023-07-15T22:02:12Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。