論文の概要: Progress over Points: Reframing LM Benchmarks Around Scientific Objectives
- arxiv url: http://arxiv.org/abs/2512.11183v1
- Date: Fri, 12 Dec 2025 00:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.602185
- Title: Progress over Points: Reframing LM Benchmarks Around Scientific Objectives
- Title(参考訳): 論点の進歩:科学的目的に関するLMベンチマークの解釈
- Authors: Alwin Jin, Sean M. Hendryx, Vaskar Nath,
- Abstract要約: LLMを静的で既に解決された問題でテストする現在のベンチマークは、基本的な能力の獲得を効果的に証明した。
我々は、進歩志向のベンチマーク、目的自体が科学的進歩のコアターゲットである問題環境について論じる。
我々は、データセットスライス、参照モデル、トレーニングハーネス、リッチテレメトリを標準化するNanoGPTスピードランに基づく環境をインスタンス化する。
我々は、新しい最先端のトレーニング時間を実現し、以前の記録を3秒改善し、新しいアルゴリズムのアイデアの出現を質的に観察する。
- 参考スコア(独自算出の注目度): 1.6584431557635195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks that test LLMs on static, already-solved problems (e.g., math word problems) effectively demonstrated basic capability acquisition. The natural progression has been toward larger, more comprehensive and challenging collections of static problems, an approach that inadvertently constrains the kinds of advances we can measure and incentivize. To address this limitation, we argue for progress-oriented benchmarks, problem environments whose objectives are themselves the core targets of scientific progress, so that achieving state of the art on the benchmark advances the field. As a introductory step, we instantiate an environment based on the NanoGPT speedrun. The environment standardizes a dataset slice, a reference model and training harness, and rich telemetry, with run-time verification and anti-gaming checks. Evaluation centers on the scientific delta achieved: best-attained loss and the efficiency frontier. Using this environment, we achieve a new state-of-the-art training time, improving upon the previous record by 3 seconds, and qualitatively observe the emergence of novel algorithmic ideas. Moreover, comparisons between models and agents remain possible, but they are a means, not the end; the benchmark's purpose is to catalyze reusable improvements to the language modeling stack. With this release, the overarching goal is to seed a community shift from static problem leaderboards to test-time research on open-ended yet measurable scientific problems. In this new paradigm, progress on the benchmark is progress on the science, thus reframing "benchmarking" as a vehicle for scientific advancement.
- Abstract(参考訳): 現在のベンチマークでは、静的で既に解決された問題(例えば、数学用語の問題)でLLMをテストすることで、基本的な能力の獲得が効果的に証明されている。
自然の進歩は、より大きく、より包括的で、挑戦的な静的な問題の収集を目指しています。
この制限に対処するために、我々は、進歩志向のベンチマーク、目的自体が科学的進歩のコアターゲットである問題環境について論じ、ベンチマークにおける最先端の達成がこの分野を前進させる。
導入ステップとして、NanoGPTスピードランに基づく環境をインスタンス化する。
この環境は、データセットスライス、参照モデル、トレーニングハーネス、リッチテレメトリを標準化し、実行時の検証とアンチゲームチェックを行う。
科学的デルタの評価センターは、最高の達成された損失と効率のフロンティアを達成した。
この環境を利用して,従来の記録を3秒改善し,新しいアルゴリズムアイデアの出現を質的に観察する,最先端のトレーニングタイムを新たに達成する。
さらに、モデルとエージェントの比較は引き続き可能であるが、それらは終わりではなく手段であり、ベンチマークの目的は言語モデリングスタックの再利用可能な改善を触媒することである。
このリリースでは、コミュニティを静的な問題リーダーボードから、オープンエンドで測定可能な科学的問題に関するテストタイム研究へと移行させることが目標である。
この新たなパラダイムでは、ベンチマークの進歩は科学の進歩であり、科学の進歩の手段として「ベンチマーク」を反映している。
関連論文リスト
- Benchmarking that Matters: Rethinking Benchmarking for Practical Impact [2.952553461344481]
本稿では,実世界のベンチマーク,実践者が利用できる機能空間,コミュニティが維持するパフォーマンスデータベースを中心にしたビジョンを提案する。
現実の洞察とともに進化し、科学的理解と産業的利用の両方をサポートする生きたベンチマークエコシステム。
論文 参考訳(メタデータ) (2025-11-15T15:42:15Z) - The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation [1.2324085268373774]
我々は、ベンチマークを越すことが推論能力を示すのか、それとも単に測定する能力から逸脱した数字を追跡するのかを議論する。
我々は,OpenAI, Anthropic, Googleの3つのモデルファミリと,その推論能力の長年にわたる進化について調査する。
論文 参考訳(メタデータ) (2025-11-03T09:09:29Z) - SSSUMO: Real-Time Semi-Supervised Submovement Decomposition [0.6499759302108926]
運動分析は、運動制御に関する貴重な洞察を提供する。
既存の手法は、復元精度、計算コスト、検証に苦慮している。
半教師付き学習フレームワークを用いて,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-07-08T21:26:25Z) - A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility [47.56466996118911]
Reasoningは、言語モデル(LM)の次の主要フロンティアとして登場した。
我々は総合的な実証的研究を行い、現在の数学的推論ベンチマークは微妙な実装選択に対して非常に敏感であることがわかった。
本稿では,ベストプラクティスと報告基準を明確に定義した標準化された評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-09T17:58:17Z) - Adversarial Alignment for LLMs Requires Simpler, Reproducible, and More Measurable Objectives [52.863024096759816]
相反する研究目的は、過去10年間に敵対的堅牢性研究の進展を妨げてきた。
我々は、対立するアライメントの有意義な進展には、リアライメントの目的が必要であると論じる。
論文 参考訳(メタデータ) (2025-02-17T15:28:40Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - The GEM Benchmark: Natural Language Generation, its Evaluation and
Metrics [66.96150429230035]
我々は、自然言語生成(NLG)のための生きたベンチマークであるGEM、その評価、およびメトリクスを紹介する。
ベンチマークの定期的なアップデートにより、NLGの研究はより多言語化され、モデルとともに課題を進化させる。
論文 参考訳(メタデータ) (2021-02-02T18:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。