論文の概要: When Elo Lies: Hidden Biases in Codeforces-Based Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05891v1
- Date: Thu, 05 Feb 2026 17:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.072213
- Title: When Elo Lies: Hidden Biases in Codeforces-Based Evaluation of Large Language Models
- Title(参考訳): Eloが嘘をついたとき: コードフォースに基づく大規模言語モデルの評価における隠れバイアス
- Authors: Shenyu Zheng, Ximing Dong, Xiaoshuang Liu, Gustavo Oliva, Chong Chun Yong, Dayi Lin, Boyuan Chen, Shaowei Wang, Ahmed E. Hassan,
- Abstract要約: 本稿では,Elo評価に偏った隠れ因子に関する系統的研究を行った。
様々な受注命令はスコアを394ポイントシフトできるが、コンテストの選択は同じモデルで最大1,122ポイントの違いを引き起こす可能性がある。
直接エロ比較は信頼性が低く、厳密な標準化や実験環境の透過的な報告なしに誤解を招く可能性があると結論付けている。
- 参考スコア(独自算出の注目度): 12.3374882430469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) achieve breakthroughs in complex reasoning, Codeforces-based Elo ratings have emerged as a prominent metric for evaluating competitive programming capabilities. However, these ratings are often reported without critical experimental details, leading to significant discrepancies illustrated by recent reports where the score of the same model version fluctuated by nearly 500 points. This paper presents a systematic empirical study on the hidden factors biasing Elo evaluations: (1) the temporal ordering of submissions, (2) contest difficulty selection, and (3) run to run stochastic variability of LLMs. Utilizing a controlled benchmark of 37 recent Codeforces contests and 13,691 generated test cases, we demonstrate that Elo scores are highly sensitive to these parameters. Our findings reveal that varying submission orders can shift scores by 394 points, while contest selection can cause differences of up to 1,122 points for the same model. Run to run performance exhibits substantial instability, with a maximum difference of 349 points in mean scores observed when evaluating identical contests. We conclude that direct Elo comparisons are unreliable and potentially misleading without strict standardization and transparent reporting of experimental settings.
- Abstract(参考訳): 大規模言語モデル(LLM)が複雑な推論においてブレークスルーを達成するにつれ、CodeforcesベースのEloレーティングは、競争力のあるプログラミング能力を評価するための重要な指標として現れてきた。
しかし、これらの評価は重要な実験的な詳細を伴わずにしばしば報告され、同じモデルバージョンのスコアが500点近く変動した最近の報告によって、大きな違いが示されている。
本稿では,Eloの評価に偏った隠れ要因に関する系統的研究として,(1)提出の時間的順序付け,(2)コンテストの難易度の選択,(3)LLMの確率的変動の実行について述べる。
最近の37のCodeforcesコンテストと13,691のテストケースの制御されたベンチマークを利用して、Eloスコアがこれらのパラメータに非常に敏感であることを実証した。
この結果から,提案命令の変動は394点,コンテスト選択では1,122点の差が生じる可能性が示唆された。
ラン・トゥ・ランのパフォーマンスは相当な不安定さを示し、同じ競技を評価する際に観測される平均得点の最大差は349点である。
直接エロ比較は信頼性が低く、厳密な標準化や実験環境の透過的な報告なしに誤解を招く可能性があると結論付けている。
関連論文リスト
- Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Contrastive Decoding Mitigates Score Range Bias in LLM-as-a-Judge [3.0514919040854154]
大規模言語モデル(LLM)は、様々なアプリケーションで一般的に評価として使用されるが、結果の信頼性は依然として課題である。
そのような課題の1つは、直接評価にLLMs-as-judgesを使用し、参照なしで特定の範囲からスコアを割り当てることである。
まず, この課題は, LLM判定出力がスコア範囲バイアスに関連付けられ, 最適スコア範囲の探索を妨げていることを示す。
次に、このバイアスを対照的な復号化によって緩和し、スピアマン平均の11.3%の相対的な改善を、異なるスコア範囲にわたる人間の判断と相関させる。
論文 参考訳(メタデータ) (2025-10-21T00:47:11Z) - Benchmarking and Revisiting Code Generation Assessment: A Mutation-Based Approach [20.27214998822657]
Code Large Language Models (CLLM) は、プログラム合成において優れた性能を示した。
既存のベンチマークは通常、各問題の評価のために1つの入力プロンプトのみを提供する。
10の突然変異戦略を提案し、コード生成への影響を評価するために3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2025-05-11T07:14:30Z) - Re-evaluating Open-ended Evaluation of Large Language Models [50.23008729038318]
現在のEloベースのレーティングシステムは、データ、意図的、あるいは偶発的なバイアスの影響を受けやすく、さらに強化できることを示している。
本稿では,3人プレイヤゲームとしての評価を提案し,冗長性に対するロバスト性を確保するために,ゲーム理論の新たな概念を導入する。
論文 参考訳(メタデータ) (2025-02-27T15:07:47Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Elo Uncovered: Robustness and Best Practices in Language Model
Evaluation [9.452326973655447]
評価手法が従うべき2つの公理:信頼性と推移性について検討する。
これらの公理は、LLMの現在の比較評価の信頼性について、常に疑問を呈しているわけではない。
論文 参考訳(メタデータ) (2023-11-29T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。