Fugu-MT 論文翻訳(概要): How Hard is it to Rig a Benchmark? A Social Choice Analysis of Leaderboard Robustness

論文の概要: How Hard is it to Rig a Benchmark? A Social Choice Analysis of Leaderboard Robustness

arxiv url: http://arxiv.org/abs/2605.23628v1
Date: Fri, 22 May 2026 13:40:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.369447
Title: How Hard is it to Rig a Benchmark? A Social Choice Analysis of Leaderboard Robustness
Title（参考訳）: ベンチマークはどれぐらい難しいか? リーダーボードのロバスト性に関する社会的選択分析
Authors: Polina Gordienko, Georg Schollmeyer, Frauke Kreuter, Christoph Jansen,
Abstract要約: 我々は、ベンチマーク固有のトレーニングを選挙操作の一形態と考えている。通常のベンチマークでは、ターゲットモデルがトップランクになるようにトレーニングするデータセットを選択するという問題は、シフト収賄に相当する。算術平均、中央値、平均勝利率、対数の過半数で表現する。
参考スコア（独自算出の注目度）: 8.615817304274529
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-task benchmarks have become a central pillar of machine learning research, yet their growing influence has incentivised benchmark gaming -- strategic actions taken to improve the leaderboard rank of a specific model. Treating datasets as voters and models as candidates, we consider benchmark-specific training -- the inclusion of benchmark data in training -- as a form of election manipulation. For any ordinal benchmark, the problem of choosing datasets to train on so that a target model becomes top-ranked corresponds to shift bribery, a class of manipulation problems from computational social choice. Leveraging this identification, we show that the benchmark-specific training problem is NP-hard under Borda count and mean win rate. Complementing this worst-case perspective, we introduce the instance-level robustness, the minimum number of datasets a model developer must include in training to top a given leaderboard, and derive expressions for it under arithmetic mean, median, mean win rate and pairwise majority. We evaluate these expressions on MMLU under HELM and on BIG-Bench Hard (BBH) under the Open LLM Leaderboard. Across both suites, mean win rate is hardest to manipulate: this gap is clear on BBH (24 tasks, 4507 models), where its median robustness is 22 tasks (92%), compared with 13 (54%) under arithmetic mean and 12 (50%) under median and pairwise majority.
Abstract（参考訳）: マルチタスクベンチマークは機械学習研究の中心的な柱となっているが、その影響力の高まりは、特定のモデルのリーダーボードランクを改善するための戦略的な行動であるベンチマークゲームにインセンティブを与えている。データセットを有権者として、モデルを候補として扱うことで、ベンチマーク固有のトレーニング — トレーニングにベンチマークデータを含める — を、選挙操作の一形態として検討する。通常のベンチマークでは、ターゲットモデルがトップランクになるようにトレーニングするデータセットを選択するという問題は、計算社会選択からの操作問題のクラスであるシフト収賄に対応している。この同定を利用して、ベンチマーク固有のトレーニング問題は、ボルダ数と平均勝利率の下でNPハードであることが示される。この最悪の観点を補完するために、私たちは、インスタンスレベルの堅牢性、モデルの開発者が与えられたリーダーボードのトップに含める必要のあるデータセットの最小数を導入し、算術平均、中央値、平均勝利率、ペアリーマジョリティで表現を導出します。 HELM と Open LLM Leaderboard の BIG-Bench Hard (BBH) 上で,これらの表現を評価する。この差はBBH(24のタスク、4507のモデル)では明らかであり、中央の頑健さは22のタスク(92%)であり、算術平均では13(54%)、中央の12(50%)である。

関連論文リスト

RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文参考訳（メタデータ） (2026-02-12T21:28:46Z)
Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。 250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文参考訳（メタデータ） (2025-05-23T01:05:07Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文参考訳（メタデータ） (2024-02-01T19:12:25Z)
Ranking & Reweighting Improves Group Distributional Robustness [14.021069321266516]
本研究では,DRU(Discounted Rank Upweighting)と呼ばれるランキングベースのトレーニング手法を提案し,テストデータ上で強力なOOD性能を示すモデルを学習する。いくつかの合成および実世界のデータセットの結果は、群分布シフトに頑健なモデルの選択と学習において、グループレベルの(ソフトミニマックスと異なり)アプローチの優れた能力を浮き彫りにしている。
論文参考訳（メタデータ） (2023-05-09T20:37:16Z)
Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文参考訳（メタデータ） (2021-06-14T05:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。