Fugu-MT 論文翻訳(概要): Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

論文の概要: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

arxiv url: http://arxiv.org/abs/2403.04132v1
Date: Thu, 7 Mar 2024 01:22:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 15:33:23.905616
Title: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
Title（参考訳）: Chatbot Arena: 人間の選好によるLLM評価のためのオープンプラットフォーム
Authors: Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Hao Zhang, Banghua Zhu, Michael Jordan, Joseph E. Gonzalez, Ion Stoica
Abstract要約: 人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
参考スコア（独自算出の注目度）: 48.99117537559644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have unlocked new capabilities and applications; however, evaluating the alignment with human preferences still poses significant challenges. To address this issue, we introduce Chatbot Arena, an open platform for evaluating LLMs based on human preferences. Our methodology employs a pairwise comparison approach and leverages input from a diverse user base through crowdsourcing. The platform has been operational for several months, amassing over 240K votes. This paper describes the platform, analyzes the data we have collected so far, and explains the tried-and-true statistical methods we are using for efficient and accurate evaluation and ranking of models. We confirm that the crowdsourced questions are sufficiently diverse and discriminating and that the crowdsourced human votes are in good agreement with those of expert raters. These analyses collectively establish a robust foundation for the credibility of Chatbot Arena. Because of its unique value and openness, Chatbot Arena has emerged as one of the most referenced LLM leaderboards, widely cited by leading LLM developers and companies. Our demo is publicly available at \url{https://chat.lmsys.org}.
Abstract（参考訳）: 大きな言語モデル(LLM)は、新しい機能とアプリケーションをアンロックしているが、人間の好みとの整合性を評価することは依然として大きな課題である。この問題に対処するために,人間の好みに基づいてLLMを評価するオープンプラットフォームであるChatbot Arenaを紹介する。提案手法は,クラウドソーシングを通じて,多種多様なユーザベースからの入力を活用する。プラットフォームは数ヶ月間運用されており、240万以上の票を集めている。本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,モデルの評価と評価に用いている統計的手法について述べる。クラウドソースの質問は十分に多様で差別的であり、クラウドソースの人間票は専門家の投票率と良好に一致していることを確認した。これらの分析により、チャトボット・アリーナの信頼性の強固な基盤が確立された。ユニークな価値とオープンさのため、Chatbot Arena は LLM のリーダーボードとして最もよく言及されており、主要な LLM 開発者や企業から広く引用されている。デモは \url{https://chat.lmsys.org} で公開されている。

関連論文リスト

Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2025-06-05T17:59:26Z)
Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。人の判断と最大で97%の相関を保ちコストを大幅に削減します
論文参考訳（メタデータ） (2025-05-19T07:34:25Z)
The Leaderboard Illusion [30.165395231766627]
アリーナは最も有能なAIシステムランキングのリーダーボードとして登場した。我々は,ゆがんだ競技場に生じた体系的な問題を同定する。
論文参考訳（メタデータ） (2025-04-29T15:48:49Z)
Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文参考訳（メタデータ） (2025-01-13T17:12:38Z)
WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis [34.639887462203]
我々は、オープンでスケーラブルでリアルタイムに更新されたプラットフォームを導入し、ゲームに基づいてLLMベースのMASにアクセスし分析する(WiS)。本プラットフォームには,(1)H Face上で利用可能なモデルをサポートする統一型モデル評価インタフェース,(2)モデル評価のためのリアルタイム更新型リーダーボード,(3)ゲーム勝利率,攻撃,防衛戦略,LLMの推論に関する総合的評価の3つが特徴である。
論文参考訳（メタデータ） (2024-12-04T14:45:09Z)
Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Large Language Models' Detection of Political Orientation in Newspapers [0.0]
新聞の立場をよりよく理解するための様々な方法が開発されている。 LLM(Large Language Models)の出現は、研究者や市民を補助する破壊的な可能性を秘めている。我々は,広く採用されている4つのLCMが新聞の位置づけを評価する方法を比較し,その回答が相互に一致しているかどうかを比較する。膨大なデータセットを通じて、新聞の記事は単一のLCMによって著しく異なる位置に配置され、アルゴリズムの一貫性のないトレーニングや過度なランダム性を示唆している。
論文参考訳（メタデータ） (2024-05-23T06:18:03Z)
Evaluating Large Language Models with Human Feedback: Establishing a Swedish Benchmark [0.0]
大規模言語モデル(LLM)は、多数のアプリケーションにまたがる重要な機能を示している。本研究では,スウェーデン語テキストの理解と生成におけるLLMの有効性を評価するための総合的人間ベンチマークを提案する。
論文参考訳（メタデータ） (2024-05-22T21:22:51Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文参考訳（メタデータ） (2023-07-06T04:05:44Z)
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文参考訳（メタデータ） (2023-06-09T05:55:52Z)
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文参考訳（メタデータ） (2023-05-23T16:49:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。