論文の概要: BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models
- arxiv url: http://arxiv.org/abs/2509.24210v1
- Date: Mon, 29 Sep 2025 02:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.701737
- Title: BeyondBench: Benchmark-Free Evaluation of Reasoning in Language Models
- Title(参考訳): BeyondBench: 言語モデルにおける推論のベンチマークなし評価
- Authors: Gaurav Srivastava, Aafiya Hussain, Zhenyu Bi, Swastik Roy, Priya Pitre, Meng Lu, Morteza Ziyadi, Xuan Wang,
- Abstract要約: インターネット規模のトレーニングデータから汚染を避けるための評価フレームワークであるBeyondBenchを紹介する。
本フレームワークでは,44のアルゴリズムタスクを117のバリエーションでカバーし,3つの難易度に分類する。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価する。
- 参考スコア(独自算出の注目度): 13.380359214677176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating language models fairly is becoming harder as static benchmarks available on the internet risk contamination by training data. This makes it unclear whether models are truly reasoning or just recalling answers. In this paper, we introduce BeyondBench, an evaluation framework that avoids this problem by using algorithmic problem generation. Unlike traditional benchmarks that risk contamination from internet-scale training data, BeyondBench creates mathematically grounded problems on the fly, ensuring each test remains fresh and uncontaminated. Our framework covers 44 algorithmic tasks with a total of 117 variations, grouped into three difficulty levels: the Easy Suite (29 tasks) for basic arithmetic and statistics, the Medium Suite (5 tasks, 49 variations) for sequence patterns and reasoning, and the Hard Suite (10 tasks, 68 variations) tackling NP-complete and constraint satisfaction problems. Each task generates problems from a combinatorial space larger than 10^15 unique instances, with solutions verified deterministically by mathematical proofs. We evaluated 101 language models, including 85 open-source and 16 closed-source models, spanning sizes from 0.5B to 141B parameters and multiple quantization schemes. Our results show consistent reasoning deficiencies across model families, with performance degrading sharply as problem complexity increases from polynomial to exponential. In our Hard Suite evaluations, models such as Gemini-2.5-pro, Llama-3.3-70B, and Qwen2.5-72B achieved average accuracies of 56.38%, 26.91%, and 33.60%, respectively. Moreover, we observe that performance drops drastically without tool usage, with GPT-5, GPT-5-mini, and GPT-5-nano showing a decline of 16.81%, 28.05%, and 47.59% accuracy on the hard suite. Our leaderboard is publicly available at https://ctrl-gaurav.github.io/BeyondBench/
- Abstract(参考訳): トレーニングデータによるインターネットのリスク汚染において静的なベンチマークが利用可能になるにつれて、言語モデルを公平に評価することが難しくなってきている。
これは、モデルが本当の理由付けなのか、単に答えをリコールしているだけなのか、はっきりしない。
本稿では,アルゴリズム問題生成を用いてこの問題を回避する評価フレームワークであるBeyondBenchを紹介する。
ネット規模のトレーニングデータから汚染されるリスクを負う従来のベンチマークとは異なり、BeyondBenchは数学的に根拠づけられた問題を発生させ、各テストが新鮮で汚染されていないことを保証する。
本フレームワークでは, 基本演算と統計の簡易スイート(29タスク), シーケンスパターンと推論の中間スイート(5タスク, 49変数), NP完全および制約満足度問題に対処するハードスイート(10タスク, 68変数)の3つの難易度レベルに分類した。
各タスクは、10^15の特異なインスタンスよりも大きい組合せ空間から問題を生成し、解は数学的証明によって決定的に検証される。
85のオープンソースモデルと16のクローズドソースモデルを含む101の言語モデルを評価し、0.5Bから141Bのパラメータと多重量子化スキームについて検討した。
本研究の結果は,問題複雑性が多項式から指数関数へと増加するにつれて,モデルファミリ間の一貫した推論欠陥が顕著に低下することを示す。
私たちのHard Suite評価では、Gemini-2.5-pro、Llama-3.3-70B、Qwen2.5-72Bといったモデルがそれぞれ56.38%、26.91%、33.60%の平均精度を達成した。
また, GPT-5, GPT-5-mini, GPT-5-nanoが16.81%, 28.05%, 47.59%の精度で, ツール使用による性能低下が著しく減少した。
私たちのリーダーボードはhttps://ctrl-gaurav.github.io/BeyondBench/で公開されています。
関連論文リスト
- WirelessMathLM: Teaching Mathematical Reasoning for LLMs in Wireless Communications with Reinforcement Learning [51.13280433665446]
大規模言語モデル(LLM)は、一般的な数学的推論では優れているが、専門的な技術的数学では破滅的に失敗する。
無線通信では、問題は情報理論的境界の正確な操作を必要とするが、最先端のモデルでさえ有能な性能を達成するのに苦労する。
本稿では、コンパクトモデル(0.5B-7Bパラメータ)がドメイン固有強化学習により、より大きなモデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2025-09-27T09:58:03Z) - ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning [51.946959481392064]
大規模推論モデル (LRM) は複雑な問題解決において顕著な能力を示している。
難しい問題の生成をスケールするために設計されたパイプラインであるScaleDiffを提案する。
我々のパイプラインは、より大きくて高価な教師モデルに頼ることなく、高度な推論能力を効果的に伝達できることを示します。
論文 参考訳(メタデータ) (2025-09-25T12:22:44Z) - Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning in LLMs [19.592385109516268]
大規模言語モデル(LLM)の現在のベンチマークは飽和状態に近づき、トレーニングセットの汚染によってますます損なわれている。
我々は、有名なウィリアム・ローウェル・パットナム数学コンペティションのベンチマークであるPatnam-AXIOMを紹介する。
変更プロトコルは、同じように困難で目に見えないインスタンスの無制限ストリームを生成します。
論文 参考訳(メタデータ) (2025-08-05T17:57:50Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。
また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文 参考訳(メタデータ) (2025-02-10T13:31:46Z) - Token-by-Token Regeneration and Domain Biases: A Benchmark of LLMs on Advanced Mathematical Problem-Solving [0.0]
本研究は,MATHデータセットを用いて10大言語モデル(LLM)を70億から80億のパラメータで評価する。
焦点は、9450以上のコード実行を含む、推論プロセスのステップとして実行可能なPythonコードを生成する能力である。
論文 参考訳(メタデータ) (2025-01-28T17:11:36Z) - HARP: A challenging human-annotated math reasoning benchmark [7.691786865279827]
本稿では,米国数学コンペティション(A(J)HSME,AMC,AIME,USA(J)MO)の5,409個の問題からなるHARP(Human Annotated Reasoning Problems)を紹介する。
そのうち4,780の回答は自動的にチェックできる(SymPyなどのライブラリで)。
これらの問題には6つの難易度があり、フロンティアモデルは197の最も難しいブラケット(平均41.1%のo1-mini、9.6%のGemini 1.5 Pro)で比較的性能が劣っている。
私たちのデータセットには、複数の選択肢(4,110問題)と、平均2つの人書き文字も備えています。
論文 参考訳(メタデータ) (2024-12-11T23:31:06Z) - Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,自然言語から派生した翻訳プログラムを検証メカニズムとして活用するフレームワークであるProveを紹介する。
バニラ多数決とは異なり、我々の手法は、対応するプログラム出力が生成した解と矛盾する解をフィルタリングし、検証に合格する解のみを集約する。
以上の結果から,すべてのモデルサイズとデータセットにまたがる数学的推論タスクの解決において,Proveはバニラ多数投票を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。