論文の概要: Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?
- arxiv url: http://arxiv.org/abs/2510.10541v1
- Date: Sun, 12 Oct 2025 10:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.999778
- Title: Rethinking RL Evaluation: Can Benchmarks Truly Reveal Failures of RL Methods?
- Title(参考訳): RLの評価を再考する:ベンチマークはRLメソッドの失敗を真に明らかにできるか?
- Authors: Zihan Chen, Yiming Zhang, Hengguang Zhou, Zenghui Ding, Yining Sun, Cho-Jui Hsieh,
- Abstract要約: ベンチマークでのトレーニングは、テストセットで直接トレーニングするのとほとんど同じパフォーマンスを達成することが分かりました。
より忠実なベンチマークを設計するための基本原則として,十分な難易度,均衡評価,分散ロバスト性という3つを提案する。
- 参考スコア(独自算出の注目度): 43.02103699297655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current benchmarks are inadequate for evaluating progress in reinforcement learning (RL) for large language models (LLMs).Despite recent benchmark gains reported for RL, we find that training on these benchmarks' training sets achieves nearly the same performance as training directly on the test sets, suggesting that the benchmarks cannot reliably separate further progress.To study this phenomenon, we introduce a diagnostic suite and the Oracle Performance Gap (OPG) metric that quantifies the performance difference between training on the train split versus the test split of a benchmark. We further analyze this phenomenon with stress tests and find that, despite strong benchmark scores, existing RL methods struggle to generalize across distribution shifts, varying levels of difficulty, and counterfactual scenarios: shortcomings that current benchmarks fail to reveal.We conclude that current benchmarks are insufficient for evaluating generalization and propose three core principles for designing more faithful benchmarks: sufficient difficulty, balanced evaluation, and distributional robustness.
- Abstract(参考訳): 現在のベンチマークは、大規模言語モデル(LLM)の強化学習(RL)の進歩を評価するには不十分である。
RLで報告された最近のベンチマークの上昇にもかかわらず、これらのベンチマークのトレーニングセットは、テストセット上でのトレーニングとほぼ同等のパフォーマンスを達成しており、ベンチマークがさらなる進捗を確実に分離できないことを示唆している。この現象を研究するために、私たちは、診断スイートとOracle Performance Gap(OPG)メトリクスを導入し、ベンチマークのスプリットとテストスプリットのパフォーマンスの違いを定量化する。
さらに, ストレステストを用いてこの現象を解析した結果, 従来のRL法では, 分散シフト, 様々な難易度, 反ファクトシナリオの一般化に苦慮していることが明らかとなった。現在のベンチマークでは, 一般化評価に不十分な欠点が指摘され, より忠実なベンチマークを設計するための3つの基本原則として, 十分な難易度, 均衡評価, 分散ロバストネスが提案されている。
関連論文リスト
- Dissecting Long Reasoning Models: An Empirical Study [94.31064312707211]
強化学習(RL)における正・負のサンプルの役割を系統的に分析する。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [53.128374915958624]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文 参考訳(メタデータ) (2025-05-21T17:54:43Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [47.56466996118911]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - The Emperor's New Clothes in Benchmarking? A Rigorous Examination of Mitigation Strategies for LLM Benchmark Data Contamination [18.05548914181797]
ベンチマークデータ汚染(BDC)-トレーニングセットにベンチマークテストサンプルを含めることで、LLM(Large Language Model)評価における懸念が高まった。
これを解決するために、研究者は既存のベンチマークを更新するための様々な緩和戦略を提案している。
従来の評価手法、例えば精度低下や精度のマッチングは、集計精度のみに焦点を合わせ、しばしば不完全あるいは誤解を招く結論に至る。
論文 参考訳(メタデータ) (2025-03-20T17:55:04Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Deep Reinforcement Learning at the Edge of the Statistical Precipice [31.178451465925555]
深部RL体制下での信頼性評価は、現場の進捗を遅らせるリスクを負うことなく、結果の不確かさを無視することはできないと論じる。
我々は,集計性能の時間間隔推定を提唱し,結果の変動性を考慮した性能プロファイルを提案する。
論文 参考訳(メタデータ) (2021-08-30T14:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。