論文の概要: MathDuels: Evaluating LLMs as Problem Posers and Solvers
- arxiv url: http://arxiv.org/abs/2604.21916v2
- Date: Mon, 27 Apr 2026 04:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.94284
- Title: MathDuels: Evaluating LLMs as Problem Posers and Solvers
- Title(参考訳): MathDuels: LLMを問題ポーザとソリューションとして評価する
- Authors: Zhiqiu Xu, Shibo Jin, Shreya Arya, Mayur Naik,
- Abstract要約: MathDuelsは、モデルがデュアルロールを占有するセルフプレイベンチマークである。
各著者は、敵対関係にある数学の問題を、他の参加者全員によって書かれた問題を推し進め、解決する。
ラシュモデルは、問題解決能力と問題困難を共同で推定する。
- 参考スコア(独自算出の注目度): 9.727695321331483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As frontier language models attain near-ceiling performance on static mathematical benchmarks, existing evaluations are increasingly unable to differentiate model capabilities, largely because they cast models solely as solvers of fixed problem sets. We introduce MathDuels, a self-play benchmark in which models occupy dual roles: each authors math problems under adversarial prompting and solves problems authored by every other participant. Problems are produced through a three-stage generation pipeline (meta-prompting, problem generation, and difficulty amplification), and validated by an independent verifier that excludes ill-posed questions. A Rasch model (Rasch, 1993) jointly estimates solver abilities and problem difficulties; author quality is derived from the difficulties of each model's authored problems. Experiments across 19 frontier models reveal that authoring and solving capabilities are partially decoupled, and that dual-role evaluation reveals capability separations invisible in single-role benchmarks. As newer models enter the arena, they produce problems that defeat previously dominant solvers, so the benchmark's difficulty co-evolves with participant strength rather than saturating at a fixed ceiling. We host a public leaderboard that updates as new models are released.
- Abstract(参考訳): 静的な数学的ベンチマークでは、フロンティア言語モデルの性能がほぼ低下しているため、既存の評価ではモデルの能力の区別が困難になっている。
モデルが二重の役割を占有するセルフプレイベンチマークであるMathDuelsを紹介した。
問題は3段階生成パイプライン(Meta-prompting、問題生成、難易度増幅)を通じて生成され、不適切な質問を除外した独立検証器によって検証される。
Raschモデル (Rasch, 1993) は、問題解決能力と問題の難しさを共同で推定する。
19のフロンティアモデルに対する実験では、オーサリングと解決の能力は部分的に分離されており、デュアルロール評価はシングルロールベンチマークでは見えない機能分離を示す。
新しいモデルがアリーナに入ると、以前は支配的な問題解決者を打ち負かすような問題が発生するので、ベンチマークの難しさは固定された天井で飽和するよりも参加者の強さと共進化する。
新しいモデルのリリースに合わせて更新する公開リーダボードをホストしています。
関連論文リスト
- RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics [79.81905350372067]
我々は文脈的数学的推論を通してギャップを研究する。
AIMEとMATH-500の問題を2つのコンテキスト設定に再利用するベンチマークであるContextMATHを紹介する。
オープンソースモデルはSGとCSで13、34ポイント減少し、プロプライエタリモデルは13、20ポイント減少している。
論文 参考訳(メタデータ) (2026-01-30T14:56:04Z) - Learning to Pose Problems: Reasoning-Driven and Solver-Adaptive Data Synthesis for Large Reasoning Models [54.29243291958429]
本研究は, 生成前に問題方向を明示的に計画する問題生成装置の開発である。
我々は,合成問題に対する解法者のフィードバックを報奨信号として扱い,生成元が難易度を調整できるようにする。
本手法は平均2.5%の改善を実現し,言語モデルと視覚言語モデルの両方に一般化する。
論文 参考訳(メタデータ) (2025-11-13T03:08:51Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges [17.056693711040747]
エニグマエスバル(EnigmaEval)は、パズル競技やイベントから派生した問題と解決策のデータセットである。
このデータセットは、暗黙の知識合成と多段階帰納的推論を実行するモデルの能力を探索する。
ベンチマークは1184のパズルで構成されており、複雑度は様々だ。
論文 参考訳(メタデータ) (2025-02-13T00:18:34Z) - ProcessBench: Identifying Process Errors in Mathematical Reasoning [62.80402845414901]
本稿では,数学的推論における誤ったステップを識別する能力を測定するためのProcessBenchを紹介する。
ProcessBenchは3400のテストケースで構成され、主に競合とオリンピアードレベルの数学問題に焦点を当てている。
我々はProcessBenchについて、プロセス報酬モデル(PRM)と批判モデルという2種類のモデルを含む広範囲な評価を行う。
論文 参考訳(メタデータ) (2024-12-09T15:11:40Z) - Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.4049215220521933]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
このフレームワークは、複数の試みにわたるモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入している。
付随するデータセットであるDIA-Benchには、さまざまなフォーマットで表示される可変パラメータを備えたチャレンジテンプレートのコレクションが含まれている。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - WorldSense: A Synthetic Benchmark for Grounded Reasoning in Large
Language Models [35.088946378980914]
我々は3つの最先端チャットLLM(GPT3.5、GPT4、Llama2-chat)上でベンチマークを実行する。
これらのモデルが3つのオブジェクトでもエラーを発生させることを示す。
エラーは、チェーン・オブ・コンテクストのプロンプトやイン・コンテクストの学習でも継続する。
論文 参考訳(メタデータ) (2023-11-27T15:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。