論文の概要: The Leaderboard Illusion
- arxiv url: http://arxiv.org/abs/2504.20879v1
- Date: Tue, 29 Apr 2025 15:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.972519
- Title: The Leaderboard Illusion
- Title(参考訳): リーダーボードの幻想
- Authors: Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'Souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker,
- Abstract要約: アリーナは最も有能なAIシステムランキングのリーダーボードとして登場した。
我々は,ゆがんだ競技場に生じた体系的な問題を同定する。
- 参考スコア(独自算出の注目度): 30.165395231766627
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Measuring progress is fundamental to the advancement of any scientific field. As benchmarks play an increasingly central role, they also grow more susceptible to distortion. Chatbot Arena has emerged as the go-to leaderboard for ranking the most capable AI systems. Yet, in this work we identify systematic issues that have resulted in a distorted playing field. We find that undisclosed private testing practices benefit a handful of providers who are able to test multiple variants before public release and retract scores if desired. We establish that the ability of these providers to choose the best score leads to biased Arena scores due to selective disclosure of performance results. At an extreme, we identify 27 private LLM variants tested by Meta in the lead-up to the Llama-4 release. We also establish that proprietary closed models are sampled at higher rates (number of battles) and have fewer models removed from the arena than open-weight and open-source alternatives. Both these policies lead to large data access asymmetries over time. Providers like Google and OpenAI have received an estimated 19.2% and 20.4% of all data on the arena, respectively. In contrast, a combined 83 open-weight models have only received an estimated 29.7% of the total data. We show that access to Chatbot Arena data yields substantial benefits; even limited additional data can result in relative performance gains of up to 112% on the arena distribution, based on our conservative estimates. Together, these dynamics result in overfitting to Arena-specific dynamics rather than general model quality. The Arena builds on the substantial efforts of both the organizers and an open community that maintains this valuable evaluation platform. We offer actionable recommendations to reform the Chatbot Arena's evaluation framework and promote fairer, more transparent benchmarking for the field
- Abstract(参考訳): 進歩を測定することはいかなる科学分野の進歩にも不可欠である。
ベンチマークがますます中心的な役割を果たすにつれて、歪みの影響を受けやすいものも増えていく。
Chatbot Arenaは、最も有能なAIシステムランキングのリーダーボードとして登場した。
しかし,本研究では,ゆがんだ競技場を生み出した体系的な問題を同定する。
非公開のプライベートテストプラクティスは、パブリックリリース前に複数の変種をテストし、望めばスコアを引き出すことのできる、少数のプロバイダにメリットがあることに気付きました。
これらのプロバイダがベストスコアを選択する能力は、パフォーマンス結果の選択的な開示によるバイアスのあるアレーナスコアにつながることが確認できます。
極端に、Llama-4リリースのリードアップでMetaによってテストされた27のプライベートLLM変異体を特定します。
また、プロプライエタリなクローズドモデルがより高いレート(戦闘数)でサンプリングされ、オープンウェイトやオープンソースの代替モデルよりもアリーナから取り除かれたモデルが少ないことも確認した。
これら2つのポリシーは、時間とともに大規模なデータアクセスの非対称性をもたらす。
GoogleやOpenAIなどのプロバイダはそれぞれ、アリーナの全データの19.2%と20.4%を受け取ったと見積もられている。
対照的に、83のオープンウェイトモデルが合計データの29.7%しか得られていない。
また,Chatbot Arenaデータへのアクセスには大きなメリットがあることがわかった。
これらの力学は、一般的なモデルの品質よりも、アリーナ固有の力学に過度に適合する。
Arenaは、この価値ある評価プラットフォームを維持する、オーガナイザとオープンコミュニティの両方の実質的な努力に基づいて構築されている。
われわれはChatbot Arenaの評価フレームワークを改訂し、より公平で透明なベンチマークを促進するための実用的なレコメンデーションを提供している。
関連論文リスト
- CHARM: Calibrating Reward Models With Chatbot Arena Scores [31.599659350165354]
リワードモデル(RM)は、人間の好みのプロキシとして機能し、大きな言語モデルを調整することで、人間のフィードバックからの強化学習において重要な役割を果たす。
我々は、RMにおけるモデル優先バイアスを特定し、特定のポリシーモデルからの応答に不均等に高いスコアを体系的に割り当てる。
この問題に対処するために,アリーナリーダーボードからのエロスコアを利用したCHARM(Chaatbot Arena Reward Modeling)というキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:51:09Z) - Investigating Non-Transitivity in LLM-as-a-Judge [24.358802214160697]
本稿では,AlpacaEvalフレームワークにおける非透過性の存在について検討し,モデルランキングに対するその影響を分析する。
ラウンドロビントーナメントの計算コストに対処するため,スイス・ワイズ・イテレーティブ・マッチメイキング(Swim)トーナメントを提案する。
論文 参考訳(メタデータ) (2025-02-19T19:59:16Z) - R.I.P.: Better Models by Survival of the Fittest Prompts [51.2293437372642]
本稿では,低品質入力が高ばらつきと低品質応答をもたらすという仮定に基づいて,データの完全性を評価する手法を提案する。
これは、拒否された応答品質と、選択された選好対と拒否された選好対の間の報酬ギャップを測定することで達成される。
論文 参考訳(メタデータ) (2025-01-30T18:50:25Z) - Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - The 1st Data Science for Pavements Challenge [5.610512429240221]
Data Science for Pavement Challenge (DSPC)は、舗装条件監視と評価のための自動視覚システムの研究と開発を加速することを目指している。
第1回大会では8カ国22チームが出場した。
論文はトップ5チームからのソリューションを要約している。
論文 参考訳(メタデータ) (2022-06-10T05:02:31Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。