論文の概要: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
- arxiv url: http://arxiv.org/abs/2403.04132v1
- Date: Thu, 7 Mar 2024 01:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:33:23.905616
- Title: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
- Title(参考訳): Chatbot Arena: 人間の選好によるLLM評価のためのオープンプラットフォーム
- Authors: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas
Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan,
Joseph E. Gonzalez, Ion Stoica
- Abstract要約: 人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
- 参考スコア(独自算出の注目度): 48.99117537559644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have unlocked new capabilities and applications;
however, evaluating the alignment with human preferences still poses
significant challenges. To address this issue, we introduce Chatbot Arena, an
open platform for evaluating LLMs based on human preferences. Our methodology
employs a pairwise comparison approach and leverages input from a diverse user
base through crowdsourcing. The platform has been operational for several
months, amassing over 240K votes. This paper describes the platform, analyzes
the data we have collected so far, and explains the tried-and-true statistical
methods we are using for efficient and accurate evaluation and ranking of
models. We confirm that the crowdsourced questions are sufficiently diverse and
discriminating and that the crowdsourced human votes are in good agreement with
those of expert raters. These analyses collectively establish a robust
foundation for the credibility of Chatbot Arena. Because of its unique value
and openness, Chatbot Arena has emerged as one of the most referenced LLM
leaderboards, widely cited by leading LLM developers and companies. Our demo is
publicly available at \url{https://chat.lmsys.org}.
- Abstract(参考訳): 大きな言語モデル(LLM)は、新しい機能とアプリケーションをアンロックしているが、人間の好みとの整合性を評価することは依然として大きな課題である。
この問題に対処するために,人間の好みに基づいてLLMを評価するオープンプラットフォームであるChatbot Arenaを紹介する。
提案手法は,クラウドソーシングを通じて,多種多様なユーザベースからの入力を活用する。
プラットフォームは数ヶ月間運用されており、240万以上の票を集めている。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,モデルの評価と評価に用いている統計的手法について述べる。
クラウドソースの質問は十分に多様で差別的であり、クラウドソースの人間票は専門家の投票率と良好に一致していることを確認した。
これらの分析により、チャトボット・アリーナの信頼性の強固な基盤が確立された。
ユニークな価値とオープンさのため、Chatbot Arena は LLM のリーダーボードとして最もよく言及されており、主要な LLM 開発者や企業から広く引用されている。
デモは \url{https://chat.lmsys.org} で公開されている。
関連論文リスト
- Political Compass or Spinning Arrow? Towards More Meaningful Evaluations
for Values and Opinions in Large Language Models [32.02697384213719]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Comuniqa : Exploring Large Language Models for improving speaking skills [2.9643400150303023]
本研究では,Large Language Models (LLMs) の音声能力向上の可能性について検討する。
我々はまず,この課題に対して,新しいLCMベースのシステムComuniqaを提案する。
そして、人間中心のアプローチでこのシステムを評価し、人間の専門家と比較します。
論文 参考訳(メタデータ) (2024-01-28T07:37:33Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - On the steerability of large language models toward data-driven personas [103.17413190093366]
協調フィルタリングに基づくデータ駆動型ペルソナ定義手法を提案する。
ユーザの連続表現を仮想トークンのシーケンスにマッピングするために,ソフトプロンプトモデルを学ぶ。
以上の結果から,本アルゴリズムはベースラインの収集よりも性能が優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - PRD: Peer Rank and Discussion Improve Large Language Model based
Evaluations [8.49315902032444]
大規模言語モデル(LLM)は自動評価や比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - Approximating Online Human Evaluation of Social Chatbots with Prompting [11.657633779338724]
既存の評価指標は、オフラインユーザ評価の自動化と、事前計算したダイアログの人的判断の近似を目的としている。
GPTファミリーの大規模言語モデル(LLM)を利用したオンライン人間評価の近似手法を提案する。
Prompting (DEP) に基づく新しいダイアログシステム評価フレームワークを導入し,完全な自動評価パイプラインを実現する。
論文 参考訳(メタデータ) (2023-04-11T14:45:01Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。