論文の概要: Arena-Lite: Efficient and Reliable Large Language Model Evaluation via Tournament-Based Direct Comparisons
- arxiv url: http://arxiv.org/abs/2411.01281v4
- Date: Mon, 04 Aug 2025 13:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.528573
- Title: Arena-Lite: Efficient and Reliable Large Language Model Evaluation via Tournament-Based Direct Comparisons
- Title(参考訳): Arena-Lite: トーナメントに基づく直接比較による効率的かつ信頼性の高い大規模言語モデル評価
- Authors: Seonil Son, Ju-Min Oh, Heegon Jin, Cheolhun Jang, Jeongbeom Jeong, Kuntae Kim,
- Abstract要約: 本稿では,頭対頭比較に基づいてトーナメント構造を統合するアリーナ・ライトを提案する。
トーナメント構造と直接比較の適用により、ベースライン出力が不要になる。
試行は、アリーナ・ライトがより少ない比較で常に高い信頼性を達成することを示した。
- 参考スコア(独自算出の注目度): 0.29687381456164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As Large Language Models (LLMs) expand across domains, LLM judges have become essential for systems evaluation. Current benchmarks typically compare system outputs against baselines. This baseline-mediated approach, though convenient, yields lower reliability than direct comparison between systems. We propose Arena-Lite which integrates tournament structure on top of head-to-head comparison. The application of a tournament structure and direct comparison eliminates the need for baseline outputs, reduces the number of required comparisons, and allows higher reliability in system rankings. We conducted two experiments: (1) controlled stochastic modeling and (2) empirical validation with a real LLM judge. Those experiments collectively demonstrate that Arena-Lite consistently achieves higher reliability with fewer comparisons, even with smaller datasets or weaker judges. We release an easy-to-use web demonstration and code to foster adoption of Arena-Lite, streamlining model selection across research and industry communities. Arena-Lite demo and code are available on \href{https://huggingface.co/spaces/NCSOFT/ArenaLite}{https://huggingface.co/spaces/NCSOFT/ArenaLite}
- Abstract(参考訳): 大規模言語モデル(LLM)がドメイン全体に広がるにつれ、LLM審査員はシステム評価に欠かせないものとなった。
現在のベンチマークでは、システム出力とベースラインを比較します。
このベースラインによるアプローチは便利ではあるが、システム間の直接比較よりも信頼性が低い。
本稿では,頭対頭比較に基づいてトーナメント構造を統合するアリーナ・ライトを提案する。
トーナメント構造と直接比較の適用は、ベースライン出力の必要性を排除し、必要な比較数を削減し、システムランキングの信頼性を高める。
我々は,(1)制御確率モデルと(2)実LLM判定器を用いた実証的検証の2つの実験を行った。
これらの実験は、より小さなデータセットや弱い判断者であっても、より少ない比較で常に高い信頼性を達成することを示した。
私たちは、Arena-Liteの採用を促進するために、簡単に使えるWebデモとコードをリリースし、研究や業界コミュニティ間のモデル選択を合理化しています。
Arena-Lite デモとコードは \href{https://huggingface.co/spaces/NCSOFT/ArenaLite}{https://huggingface.co/spaces/NCSOFT/ArenaLite} で公開されている。
関連論文リスト
- Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models [0.46040036610482665]
本稿では,AESをペア比較タスクとして定式化する方法であるLCES(Comparent Essay Scoring)を提案する。
具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。
AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
論文 参考訳(メタデータ) (2025-05-13T12:26:16Z) - The Leaderboard Illusion [61.27964089648608]
アリーナは最も有能なAIシステムランキングのリーダーボードとして登場した。
我々は,ゆがんだ競技場に生じた体系的な問題を同定する。
論文 参考訳(メタデータ) (2025-04-29T15:48:49Z) - Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。
LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。
与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T07:46:30Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - AxBench: Steering LLMs? Even Simple Baselines Outperform Sparse Autoencoders [73.37603699731329]
ステアリングと概念検出のための大規模ベンチマークであるAxBenchを紹介する。
ステアリングでは、すべての既存のメソッドを高速に処理し、次いで微調整する。
概念検出では、差分のような表現に基づく手法が最善を尽くす。
論文 参考訳(メタデータ) (2025-01-28T18:51:24Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems [43.19298196163617]
両世界の長所を結合する簡単な手法を提案する。
MIRAGE-Benchは、ウィキペディアの18の多言語のための合成アリーナベースのRAGベンチマークである。
論文 参考訳(メタデータ) (2024-10-17T16:18:49Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。
我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。
ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-02T01:12:54Z) - K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences [30.744662265421788]
モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
我々はK-Sort Arenaを紹介した。K-Sort Arenaは、画像とビデオがテキストよりも知覚的直感性が高いという重要な洞察に基づく、効率的で信頼性の高いプラットフォームである。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
論文 参考訳(メタデータ) (2024-08-26T17:58:20Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。