論文の概要: Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
- arxiv url: http://arxiv.org/abs/2405.20267v2
- Date: Thu, 6 Jun 2024 11:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:03:47.916677
- Title: Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions
- Title(参考訳): LLMのオートアリーナ:エージェントピアバスによるLCM評価の自動化と委員会ディスカッション
- Authors: Ruochen Zhao, Wenxuan Zhang, Yew Ken Chia, Deli Zhao, Lidong Bing,
- Abstract要約: LLM エージェントによる評価プロセス全体を自動化した LLM の自動アリーナを提案する。
最新のLLM17実験において,オートアリーナは人間の嗜好と最も高い相関関係を示した。
- 参考スコア(独自算出の注目度): 77.83767077859835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLMs evolve on a daily basis, there is an urgent need for a trustworthy evaluation method that can provide robust evaluation results in a timely fashion. Currently, as static benchmarks are prone to contamination concerns, users tend to trust human voting platforms, such as Chatbot Arena. However, human annotations require extensive manual efforts. To provide an automatic, robust, and trustworthy evaluation framework, we innovatively propose the Auto-Arena of LLMs, which automates the entire evaluation process with LLM agents. Firstly, an examiner LLM devises queries. Then, a pair of candidate LLMs engage in a multi-round peer-battle around the query, during which the LLM's true performance gaps become visible. Finally, a committee of LLM judges collectively discuss and determine the winner, which alleviates bias and promotes fairness. In our extensive experiment on the 17 newest LLMs, Auto-Arena shows the highest correlation with human preferences, providing a promising alternative to human evaluation platforms.
- Abstract(参考訳): LLMが日常的に進化するにつれて、信頼できる評価方法が緊急に必要であり、安定した評価結果をタイムリーに提供できる。
現在、静的ベンチマークは汚染の懸念があるため、ユーザーはChatbot Arenaのような人間の投票プラットフォームを信頼する傾向にある。
しかし、人間のアノテーションは広範囲の手作業を必要とする。
自動的かつ堅牢で信頼性の高い評価フレームワークとして,LLMエージェントによる評価プロセス全体を自動化したLLMの自動アリーナを革新的に提案する。
まず、検査者LLMがクエリを考案する。
次に、LLM候補のペアがクエリの周りで複数ラウンドのピアバトルを行い、その間にLLMの真のパフォーマンスギャップが見えてくる。
最後に、LLM審査員の委員会は、偏見を緩和し公平性を促進する勝者をまとめて議論し、決定する。
最新のLLM17の広範な実験において、Auto-Arenaは人間の嗜好と最も高い相関を示し、人間の評価プラットフォームに代わる有望な代替手段を提供する。
関連論文リスト
- Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。
制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。
我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文 参考訳(メタデータ) (2024-02-02T18:49:26Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。