論文の概要: Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2505.12808v1
- Date: Mon, 19 May 2025 07:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.469365
- Title: Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models
- Title(参考訳): 分散アリーナ: 言語モデルの民主的でスケーラブルな自動評価を目指して
- Authors: Yanbin Yin, Kun Zhou, Zhen Wang, Xiangdong Zhang, Yifei Shao, Shibo Hao, Yi Gu, Jieyuan Liu, Somanshu Singla, Tianyang Liu, Eric P. Xing, Zhengzhong Liu, Haojian Jin, Zhiting Hu,
- Abstract要約: Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
- 参考スコア(独自算出の注目度): 66.51871176061195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent explosion of large language models (LLMs), each with its own general or specialized strengths, makes scalable, reliable benchmarking more urgent than ever. Standard practices nowadays face fundamental trade-offs: closed-ended question-based benchmarks (eg MMLU) struggle with saturation as newer models emerge, while crowd-sourced leaderboards (eg Chatbot Arena) rely on costly and slow human judges. Recently, automated methods (eg LLM-as-a-judge) shed light on the scalability, but risk bias by relying on one or a few "authority" models. To tackle these issues, we propose Decentralized Arena (dearena), a fully automated framework leveraging collective intelligence from all LLMs to evaluate each other. It mitigates single-model judge bias by democratic, pairwise evaluation, and remains efficient at scale through two key components: (1) a coarse-to-fine ranking algorithm for fast incremental insertion of new models with sub-quadratic complexity, and (2) an automatic question selection strategy for the construction of new evaluation dimensions. Across extensive experiments across 66 LLMs, dearena attains up to 97% correlation with human judgements, while significantly reducing the cost. Our code and data will be publicly released on https://github.com/maitrix-org/de-arena.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)の爆発は、それぞれ独自の汎用的あるいは特殊な強みを持ち、スケーラブルで信頼性の高いベンチマークをこれまで以上に緊急にしている。
閉じた質問ベースのベンチマーク(例えばMMLU)は、新しいモデルが出現するにつれて飽和に苦しむ一方、クラウドソースのリーダーボード(例えばChatbot Arena)は、高価で遅い人間の審査員に依存している。
最近、自動化された方法(例えばLLM-as-a-judge)はスケーラビリティに光を当てていますが、1つまたはいくつかの"権威"モデルに依存することでリスクバイアスが発生しています。
これらの課題に対処するために,全LSMからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである分散アリーナ(dearena)を提案する。
本手法は, 単一モデルの判断バイアスを民主的, 対的評価によって軽減し, かつ, 2つの重要な要素を通じて, 大規模かつ効果的に維持する。(1) 四進法的複雑性を持つ新モデルの高速インクリメンタルインクリメンタルインクリメンタルインクリメンタルインクリメントのための粗いランク付けアルゴリズム, (2) 新しい評価次元を構築するための自動質問選択戦略である。
66LLMにわたる大規模な実験では、ヒトの判断と最大97%の相関が得られたが、コストは大幅に削減された。
私たちのコードとデータはhttps://github.com/maitrix-org/de-arena.comで公開されます。
関連論文リスト
- Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。
VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。