論文の概要: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
- arxiv url: http://arxiv.org/abs/2306.05685v4
- Date: Sun, 24 Dec 2023 02:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:30:15.045492
- Title: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
- Title(参考訳): MT-Benchとチャットボットアリーナを用いたLCM-as-a-Judgeの判定
- Authors: Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu,
Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang,
Joseph E. Gonzalez, Ion Stoica
- Abstract要約: 本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
- 参考スコア(独自算出の注目度): 76.21004582932268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating large language model (LLM) based chat assistants is challenging
due to their broad capabilities and the inadequacy of existing benchmarks in
measuring human preferences. To address this, we explore using strong LLMs as
judges to evaluate these models on more open-ended questions. We examine the
usage and limitations of LLM-as-a-judge, including position, verbosity, and
self-enhancement biases, as well as limited reasoning ability, and propose
solutions to mitigate some of them. We then verify the agreement between LLM
judges and human preferences by introducing two benchmarks: MT-bench, a
multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our
results reveal that strong LLM judges like GPT-4 can match both controlled and
crowdsourced human preferences well, achieving over 80% agreement, the same
level of agreement between humans. Hence, LLM-as-a-judge is a scalable and
explainable way to approximate human preferences, which are otherwise very
expensive to obtain. Additionally, we show our benchmark and traditional
benchmarks complement each other by evaluating several variants of LLaMA and
Vicuna. The MT-bench questions, 3K expert votes, and 30K conversations with
human preferences are publicly available at
https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.
- Abstract(参考訳): 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。
これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。
本研究では, LLM-as-a-judgeの使用と限界について検討し, 位置, 冗長性, 自己啓発バイアス, 推論能力の制限などを検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
GPT-4のような強力なLCM判事は、コントロールとクラウドソースの両方の人間の嗜好によく適合し、80%以上の合意を達成できる。
したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。
さらに,我々のベンチマークと従来のベンチマークは,llama と vicuna のいくつかの変種を評価し,相互補完関係にあることを示す。
MT-benchの質問、3Kのエキスパート投票、および人間の好みに関する30Kの会話はhttps://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judgeで公開されている。
関連論文リスト
- Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - JudgeLM: Fine-tuned Large Language Models are Scalable Judges [54.007823006976516]
大規模言語モデル (LLM) を拡張性判断器 (JudgeLM) として微調整し, LLM を効率よく, かつ効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
論文 参考訳(メタデータ) (2023-10-26T17:48:58Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - SuperCLUE: A Comprehensive Chinese Large Language Model Benchmark [16.802854803128433]
また,中国のLLMベンチマーク CLUE にちなんで,中国の総合ベンチマーク SuperCLUE を提案する。
SuperCLUEには3つのサブタスクが含まれている: LLMバトルプラットフォーム(CArena)に由来する実際のユーザのクエリとレーティング、シングルターンダイアログ(OPEN)によるオープンエンド質問、オープンエンドシングルターンダイアログ(CLOSE)と同じ幹を持つクローズドエンド質問(CLOSE)である。
本研究は, クローズドエンド質問に対する精度が, オープンエンド質問に対する人間の嗜好を反映するには不十分であることを示す。
論文 参考訳(メタデータ) (2023-07-27T17:24:09Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。