論文の概要: The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation
- arxiv url: http://arxiv.org/abs/2511.01365v1
- Date: Mon, 03 Nov 2025 09:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.194279
- Title: The Ouroboros of Benchmarking: Reasoning Evaluation in an Era of Saturation
- Title(参考訳): ベンチマークのウロボロ:飽和期における推論評価
- Authors: İbrahim Ethem Deveci, Duygu Ataman,
- Abstract要約: 我々は、ベンチマークを越すことが推論能力を示すのか、それとも単に測定する能力から逸脱した数字を追跡するのかを議論する。
我々は,OpenAI, Anthropic, Googleの3つのモデルファミリと,その推論能力の長年にわたる進化について調査する。
- 参考スコア(独自算出の注目度): 1.2324085268373774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise of Large Language Models (LLMs) and Large Reasoning Models (LRMs) has been accompanied by an equally rapid increase of benchmarks used to assess them. However, due to both improved model competence resulting from scaling and novel training advances as well as likely many of these datasets being included in pre or post training data, results become saturated, driving a continuous need for new and more challenging replacements. In this paper, we discuss whether surpassing a benchmark truly demonstrates reasoning ability or are we simply tracking numbers divorced from the capabilities we claim to measure? We present an investigation focused on three model families, OpenAI, Anthropic, and Google, and how their reasoning capabilities across different benchmarks evolve over the years. We also analyze performance trends over the years across different reasoning tasks and discuss the current situation of benchmarking and remaining challenges. By offering a comprehensive overview of benchmarks and reasoning tasks, our work aims to serve as a first reference to ground future research in reasoning evaluation and model development.
- Abstract(参考訳): LLM(Large Language Models)とLRM(Large Reasoning Models)の急速な増加は、それらを評価するために使われるベンチマークの急激な増加を伴っている。
しかし、スケーリングと新しいトレーニングの進歩によるモデル能力の向上と、これらのデータセットの多くが事前または後トレーニングデータに含まれている可能性が高いことから、結果は飽和し、新しい、より困難な代替データに対する継続的なニーズがもたらされる。
本稿では,ベンチマークを越えれば推論能力が真に証明されるのか,それとも測定する能力から逸脱した数値を単に追跡すればよいのかを論じる。
我々は、OpenAI、Anthropic、Googleの3つのモデルファミリと、さまざまなベンチマークでの推論能力の進化について調査する。
また、さまざまな推論タスクにおけるパフォーマンストレンドを分析し、ベンチマークの現在の状況と残る課題について論じます。
本研究は,ベンチマークと推論タスクの総合的な概要を提供することで,推論評価とモデル開発における基礎研究への第一歩として機能することを目的としている。
関連論文リスト
- A Survey on Large Language Model Benchmarks [45.042853171973086]
一般的な能力ベンチマークは、中核言語学、知識、推論などの側面をカバーする。
ドメイン固有のベンチマークは、自然科学、人文科学、社会科学、エンジニアリング技術といった分野に焦点を当てている。
ターゲット固有のベンチマークは、リスク、信頼性、エージェントなどに注意を払う。
論文 参考訳(メタデータ) (2025-08-21T08:43:35Z) - Benchmark-Driven Selection of AI: Evidence from DeepSeek-R1 [0.0]
より優れたパフォーマンスは、必ずしもテスト時のアルゴリズム改善やモデルサイズによってもたらされるのではなく、影響のあるベンチマークを学習のカリキュラムとして使用することによってもたらされることを示す。
我々は、このベンチマーク駆動によるAIの選択と呼び、HumanityのLast Examからのシーケンシャルな意思決定問題を使用して、DeepSeek-R1への影響を示す。
論文 参考訳(メタデータ) (2025-08-13T20:15:20Z) - Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems [92.89673285398521]
o1のような推論システムは、複雑な推論タスクを解く際、顕著な能力を示した。
推論モデルをトレーニングするために、模倣、探索、自己改善のフレームワークを導入します。
提案手法は,産業レベルの推論システムと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-12T16:20:36Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。