Fugu-MT 論文翻訳(概要): On Benchmark Hacking in ML Contests: Modeling, Insights and Design

論文の概要: On Benchmark Hacking in ML Contests: Modeling, Insights and Design

arxiv url: http://arxiv.org/abs/2604.22230v1
Date: Fri, 24 Apr 2026 05:07:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-27 15:36:26.348303
Title: On Benchmark Hacking in ML Contests: Modeling, Insights and Design
Title（参考訳）: MLコンテストにおけるベンチマークハックについて:モデリング、インサイト、設計
Authors: Xiaoyun Qiu, Yang Yu, Haifeng Xu,
Abstract要約: ベンチマークハッキング(Benchmark Hacking)とは、機械学習モデルをチューニングして、真の一般化を改善したり、意図した問題を忠実に解決したりすることなく、特定の評価基準で高いスコアを付けることを指す。我々は、この現象を汎用機械学習コンテストで研究し、各競技者が2種類の取り組みを選択する。
参考スコア（独自算出の注目度）: 31.78322449702569
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Benchmark hacking refers to tuning a machine learning model to score highly on certain evaluation criteria without improving true generalization or faithfully solving the intended problem. We study this phenomenon in a generic machine learning contest, where each contestant chooses two types of effort: creative effort that improves model capability as desired by the contest host, and mechanistic effort that only improves the model's fitness to the particular task in contest without contributing to true generalization. We establish the existence of a symmetric monotone pure strategy equilibrium in this competition game. It also provides a natural definition of benchmark hacking in this strategic context by comparing a player's equilibrium effort allocation to that of a single-agent baseline scenario. Under our definition, contestants with types below certain threshold (low types) always engage in benchmark hacking, whereas those above the threshold do not. Furthermore, we show that more skewed reward structures (favoring top-ranked contestants) can elicit more desirable contest outcomes. We also provide empirical evidence to support our theoretical predictions.
Abstract（参考訳）: ベンチマークハッキング(Benchmark Hacking)とは、機械学習モデルをチューニングして、真の一般化を改善したり、意図した問題を忠実に解決したりすることなく、特定の評価基準で高いスコアを付けることを指す。我々は,この現象を汎用機械学習コンテストにおいて研究し,各競技者は,競技者が望むモデル能力を改善する創造的努力と,競技者の特定の課題に対するモデルの適合性を改善するための機械的努力とを,真の一般化に寄与することなく選択する。この競技ゲームにおいて、対称モノトン純粋戦略平衡の存在を確立する。また、この戦略的な文脈でベンチマークハッキングの自然な定義を提供し、プレイヤーの均衡作業割り当てを単一エージェントのベースラインシナリオと比較する。私たちの定義では、特定のしきい値(低しきい値)未満の型を持つ競合者は、常にベンチマークハッキングに従事しますが、しきい値以上のものは、そうではありません。さらに,よりスキュードな報酬構造(上位の競争相手に好意的な)が,より望ましい競争結果をもたらすことを示す。理論的予測を支持するための実証的な証拠も提供します。

関連論文リスト

Leaderboard Incentives: Model Rankings under Strategic Post-Training [39.30823650986712]
インフルエンシャルベンチマークは、競合するモデル開発者に、トレーニング後のリソースをリーダボードの改善に向けて戦略的に割り当てる動機を与える。軽度条件下では、最近提案されたチューン・バイ・テストと呼ばれる評価プロトコルが、遅延品質でモデルをランク付けするユニークなナッシュ平衡を持つベンチマークを誘導することを示す。
論文参考訳（メタデータ） (2026-03-09T13:33:20Z)
Pruning as a Game: Equilibrium-Driven Sparsification of Neural Networks [1.1458853556386799]
我々は、継続参加が均衡において支配的な戦略となると、スパシティが自然に現れることを示す。ネットワークパラメータと参加変数を明示的な重要度スコアに頼らずに共同で更新する,単純な平衡駆動型プルーニングアルゴリズムを導出する。
論文参考訳（メタデータ） (2025-12-26T18:25:38Z)
LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics [23.99262273166077]
大規模言語モデル(LLM)と多様な特殊なベンチマークでは、断片化されたタスク固有のメトリクスから、総合的で競争的なランキングシステムに移行する必要がある。本稿では,コンペティティブ・スイス・システム・ダイナミクス (CSD) フレームワークを紹介し,シーケンシャル・コンテストをシミュレートする。 CSDは従来のアグリゲーションスコアリングや静的ペアワイズモデルよりもニュアンスでコンテキスト対応のランキングを提供する。
論文参考訳（メタデータ） (2025-12-24T07:14:31Z)
A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文参考訳（メタデータ） (2024-01-08T17:55:02Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
Improved Bayes Risk Can Yield Reduced Social Welfare Under Competition [99.7047087527422]
本研究は,機械学習のスケーリングトレンドの振る舞いを根本的に変化させることを実証する。データ表現品質の改善により、ユーザ間での全体的な予測精度が低下する、多くの設定が見つかる。概念レベルでは,各モデルプロジェクタのスケーリング傾向が,社会福祉の下流改善に寄与する必要はないことが示唆された。
論文参考訳（メタデータ） (2023-06-26T13:06:34Z)
Revisiting the Compositional Generalization Abilities of Neural Sequence Models [23.665350744415004]
一般的なSCANベンチマークで導入されたワンショットプリミティブな一般化に焦点を当てる。トレーニング分布をシンプルかつ直感的に修正することで、標準的なSeq-to-seqモデルでほぼ完璧な一般化性能が得られることを示す。
論文参考訳（メタデータ） (2022-03-14T18:03:21Z)
Kaggle forecasting competitions: An overlooked learning opportunity [0.0]
実生活におけるビジネス予測タスクを含む6つのKaggleコンペティションの結果をレビューする。その結果、Kaggleデータセットの大部分は、M競合よりも高い断続性とエントロピーによって特徴づけられることがわかった。我々は、勾配を増す決定木の性能向上、予測のためのニューラルネットワークの成功の増加、予測タスクに機械学習モデルを適用するための様々なテクニックを見出した。
論文参考訳（メタデータ） (2020-09-16T14:14:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。