Fugu-MT 論文翻訳(概要): Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

論文の概要: Judging LLM-as-a-judge with MT-Bench and Chatbot Arena

arxiv url: http://arxiv.org/abs/2306.05685v1
Date: Fri, 9 Jun 2023 05:55:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 14:38:33.051000
Title: Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
Title（参考訳）: MT-BenchとChatbot Arenaを用いたLCM-as-a-judgeの判定
Authors: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
Abstract要約: よりオープンな質問に対して,大規模言語モデル(LLM)に基づくチャットアシスタントの評価を行った。 LLMの強い審査員は、制御とクラウドソーシングの両方の人間の嗜好によく適合することを示す。われわれは、アリーナの人事に関する80のMTベンチ質問、3Kのエキスパート投票、30Kの会話を公に公開する。
参考スコア（独自算出の注目度）: 77.81346007287917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, such as position and verbosity biases and limited reasoning ability, and propose solutions to migrate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80\% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA/Vicuna. We will publicly release 80 MT-bench questions, 3K expert votes, and 30K conversations with human preferences from Chatbot Arena.
Abstract（参考訳）: 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。本研究では, LLM-as-a-judgeの使用法と限界, 位置や冗長性バイアス, 限定推論能力などを検討した。次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。その結果, GPT-4 のような強い LLM 審査員は, コントロールとクラウドソースの双方によく適合し, 80 % 以上の合意を達成できることがわかった。したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。さらに,いくつかのllama/vicunaの変種を評価することで,ベンチマークと従来のベンチマークが相互補完することを示す。 80のMTベンチ質問、3Kの専門家投票、Chatbot Arenaからの人間の好みに関する30Kの会話を公開します。

関連論文リスト

Arbiters of Ambivalence: Challenges of Using LLMs in No-Consensus Tasks [52.098988739649705]
本研究では, LLMのバイアスと限界について, 応答生成器, 判定器, 討論器の3つの役割について検討した。我々は、様々な先行的曖昧なシナリオを含む例をキュレートすることで、合意なしのベンチマークを開発する。以上の結果から, LLMは, オープンエンドの回答を生成する際に, 曖昧な評価を行うことができる一方で, 審査員や討論者として採用する場合は, 合意なしのトピックにスタンスを取る傾向が示唆された。
論文参考訳（メタデータ） (2025-05-28T01:31:54Z)
No Free Labels: Limitations of LLM-as-a-Judge Without Human Grounding [3.1674468740431396]
我々はLLM審査員が会話質問に対する応答が正しいかどうかを評価できるかどうかを評価する。この分析のために作成された、既存のデータセットと、新しい挑戦的ベンチマーク(BFF-Bench)の組み合わせから、質問を引用する。より高品質な基準を持つ弱い審査員を提供することは、より強い審査員よりも人間のアノテータとよりよく一致していることが示される。
論文参考訳（メタデータ） (2025-03-07T00:42:08Z)
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文参考訳（メタデータ） (2024-11-25T17:28:44Z)
MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
両世界の長所を結合する簡単な手法を提案する。 MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文参考訳（メタデータ） (2024-10-17T16:18:49Z)
JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文参考訳（メタデータ） (2024-10-16T17:58:19Z)
Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか? その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文参考訳（メタデータ） (2024-09-23T17:58:07Z)
Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文参考訳（メタデータ） (2024-05-30T17:19:19Z)
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文参考訳（メタデータ） (2024-03-07T01:22:38Z)
JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文参考訳（メタデータ） (2023-10-26T17:48:58Z)
SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.802854803128433]
また,中国のLLMベンチマーク CLUE にちなんで,中国の総合ベンチマーク SuperCLUE を提案する。 SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文参考訳（メタデータ） (2023-07-27T17:24:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。