論文の概要: Leaderboard Incentives: Model Rankings under Strategic Post-Training
- arxiv url: http://arxiv.org/abs/2603.08371v1
- Date: Mon, 09 Mar 2026 13:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.093666
- Title: Leaderboard Incentives: Model Rankings under Strategic Post-Training
- Title(参考訳): リーダーシップのインセンティブ:戦略的なポストトライニングの下でのモデルランキング
- Authors: Yatong Chen, Guanhua Zhang, Moritz Hardt,
- Abstract要約: インフルエンシャルベンチマークは、競合するモデル開発者に、トレーニング後のリソースをリーダボードの改善に向けて戦略的に割り当てる動機を与える。
軽度条件下では、最近提案されたチューン・バイ・テストと呼ばれる評価プロトコルが、遅延品質でモデルをランク付けするユニークなナッシュ平衡を持つベンチマークを誘導することを示す。
- 参考スコア(独自算出の注目度): 39.30823650986712
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Influential benchmarks incentivize competing model developers to strategically allocate post-training resources toward improvements on the leaderboard, a phenomenon dubbed benchmaxxing or training on the test task. In this work, we initiate a principled study of the incentive structure that benchmarks induce. We model benchmarking as a Stackelberg game between a benchmark designer who chooses an evaluation protocol and multiple model developers who compete simultaneously in a subgame given by the designer's choice. Each competitor has a model of unknown latent quality and can inflate its observed score by allocating resources to benchmark-specific improvements. First, we prove that current benchmarks induce games for which no Nash equilibrium between model developers exists. This result suggests one explanation for why current practice leads to misaligned incentives, prompting model developers to strategize in opaque ways. However, we prove that under mild conditions, a recently proposed evaluation protocol, called tune-before-test, induces a benchmark with a unique Nash equilibrium that ranks models by latent quality. This positive result demonstrates that benchmarks need not set bad incentives, even if current evaluations do.
- Abstract(参考訳): インフルエンシャルベンチマークは、競合するモデル開発者がリーダボードの改善に向けて、トレーニング後のリソースを戦略的に割り当てるように動機付けている。
本研究では,ベンチマークによって誘導されるインセンティブ構造について,原理的な研究を開始する。
評価プロトコルを選択するベンチマークデザイナと,デザイナの選択したサブゲームで同時に競合する複数のモデルデザイナとの間で,ベンチマークをStackelbergゲームとしてモデル化する。
それぞれの競合相手は、未知の潜伏品質のモデルを持ち、リソースをベンチマーク固有の改善に割り当てることで、観察されたスコアを増大させることができる。
まず、モデル開発者間のナッシュ均衡が存在しないゲームに、現在のベンチマークが誘導されることを証明する。
この結果は、現在のプラクティスがインセンティブの不整合を招き、モデル開発者が不透明な方法で戦略を立てる理由を示唆している。
しかし,最近提案された評価プロトコルであるチューム・バイ・フェート・テストは,緩やかな条件下では,モデルに潜時品質でランク付けするユニークなナッシュ平衡を持つベンチマークを誘導することを示した。
この肯定的な結果は、ベンチマークがたとえ現在の評価であっても、悪いインセンティブを設定する必要はないことを示している。
関連論文リスト
- The Flaw of Averages: Quantifying Uniformity of Performance on Benchmarks [32.00464870277127]
本稿では,分布の観点からベンチマークの信頼性について検討し,ベンチマークの調和を導入する。
高調和性は望ましいベンチマーク特性であり、凝集度がモデル間の均一なコンピテンスを反映していることを示している。
正確さとともに調和を報告することを推奨することで、単純なパフォーマンス平均から、より堅牢で分散的に信頼性の高いパフォーマンス測定まで、評価を見直します。
論文 参考訳(メタデータ) (2025-09-30T02:14:30Z) - Train-before-Test Harmonizes Language Model Rankings [39.02785699830391]
既存の言語モデルベンチマークは、類似のスキルを捉えることを目的としたベンチマークであっても、矛盾するモデルランキングを提供する。
評価の前に、各モデルに同一のベンチマーク固有の微調整を提供することにより、モデルポテンシャルを比較する。
列車前テストで得られたモデルランキングは,全てのベンチマークで顕著に一致していることを示す。
論文 参考訳(メタデータ) (2025-07-07T16:54:18Z) - RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。
コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。
本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文 参考訳(メタデータ) (2025-06-02T17:54:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - How Robust are Model Rankings: A Leaderboard Customization Approach for
Equitable Evaluation [0.0]
トップリーダーボードのモデルは、現実世界のアプリケーションにデプロイされた場合、しばしば不満足に機能します。
本稿では,その難易度に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。
リーダーボードは敵に攻撃される可能性があり、トップパフォーマンスモデルは必ずしもベストモデルであるとは限らない。
論文 参考訳(メタデータ) (2021-06-10T06:47:35Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。