論文の概要: MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
- arxiv url: http://arxiv.org/abs/2510.14265v1
- Date: Thu, 16 Oct 2025 03:30:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.703982
- Title: MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning
- Title(参考訳): MorphoBench: モデル推論に適応する難易度のあるベンチマーク
- Authors: Xukai Wang, Xuanbo Liu, Mingrui Chen, Haitian Zhong, Xuanlin Yang, Bohan Zeng, Jinbo Hu, Hao Liang, Junbo Niu, Xuchen Li, Ruitao Wu, Ruichuan An, Yang Shi, Liu Liu, Xu-Yao Zhang, Qiang Liu, Zhouchen Lin, Wentao Zhang, Bin Dong,
- Abstract要約: 大規模モデルの推論能力を評価するために,複数分野の質問を取り入れたベンチマークであるMorphoBenchを提案する。
MorphoBenchは、モデルの推論プロセスで生成されたキーステートメントを活用することで、質問の分析的課題を適応的に修正する。
我々は1300以上のテスト質問を集め、o3やGPT-5といったモデルの推論能力に基づいてMorphoBenchの難易度を反復的に調整した。
- 参考スコア(独自算出の注目度): 61.04601861108966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of powerful large-scale reasoning models, effectively evaluating the reasoning capabilities of these models has become increasingly important. However, existing benchmarks designed to assess the reasoning abilities of large models tend to be limited in scope and lack the flexibility to adapt their difficulty according to the evolving reasoning capacities of the models. To address this, we propose MorphoBench, a benchmark that incorporates multidisciplinary questions to evaluate the reasoning capabilities of large models and can adjust and update question difficulty based on the reasoning abilities of advanced models. Specifically, we curate the benchmark by selecting and collecting complex reasoning questions from existing benchmarks and sources such as Olympiad-level competitions. Additionally, MorphoBench adaptively modifies the analytical challenge of questions by leveraging key statements generated during the model's reasoning process. Furthermore, it includes questions generated using simulation software, enabling dynamic adjustment of benchmark difficulty with minimal resource consumption. We have gathered over 1,300 test questions and iteratively adjusted the difficulty of MorphoBench based on the reasoning capabilities of models such as o3 and GPT-5. MorphoBench enhances the comprehensiveness and validity of model reasoning evaluation, providing reliable guidance for improving both the reasoning abilities and scientific robustness of large models. The code has been released in https://github.com/OpenDCAI/MorphoBench.
- Abstract(参考訳): 強力な大規模推論モデルの進歩により、これらのモデルの推論能力を効果的に評価することがますます重要になっている。
しかしながら、大規模モデルの推論能力を評価するために設計された既存のベンチマークは、スコープが限られており、モデルの進化する推論能力に応じてそれらの困難に適応する柔軟性が欠けている傾向にある。
そこで本研究では,大規模モデルの推論能力を評価するために,複数分野の質問を組み込んだベンチマークであるMorphoBenchを提案する。
具体的には、既存のベンチマークやOlympiadレベルのコンペティションなどのソースから、複雑な推論質問を選択して収集することで、ベンチマークをキュレートする。
さらに、MorphoBenchはモデルの推論プロセスで生成されたキーステートメントを活用することで、質問の分析課題を適応的に修正する。
さらに、シミュレーションソフトウェアを用いて生成された質問が含まれており、最小限のリソース消費でベンチマークの難易度を動的に調整することができる。
我々は1300以上のテスト質問を集め、o3やGPT-5といったモデルの推論能力に基づいてMorphoBenchの難易度を反復的に調整した。
MorphoBenchは、モデル推論評価の包括性と妥当性を高め、大規模モデルの推論能力と科学的堅牢性の両方を改善するための信頼性の高いガイダンスを提供する。
コードはhttps://github.com/OpenDCAI/MorphoBench.comでリリースされた。
関連論文リスト
- Are Large Reasoning Models Interruptible? [77.53059044071107]
LRM(Large Reasoning Models)は複雑な推論において優れているが、伝統的に静的な「凍った世界」設定で評価されている。
静的な設定で高い精度を達成できる最先端のLEMでさえ、割り込みやコンテキストの変化に晒された場合、予測不能に失敗する可能性があることを示す。
我々の分析ではさらに、漏れの原因、パニック、自己疑念など、いくつかの新しい障害モードを明らかにしている。
論文 参考訳(メタデータ) (2025-10-13T17:59:35Z) - Beyond Memorization: Extending Reasoning Depth with Recurrence, Memory and Test-Time Compute Scaling [60.63703438729223]
異なるアーキテクチャとトレーニング手法がモデル多段階推論能力にどのように影響するかを示す。
我々は,逐次計算においてモデル深度の増加が重要な役割を担っていることを確認した。
論文 参考訳(メタデータ) (2025-08-22T18:57:08Z) - Libra: Assessing and Improving Reward Model by Learning to Think [37.22776255575947]
推論シナリオにおける既存の報酬モデルベンチマークの限界に対処するために、推論指向ベンチマーク(Libra Bench)を提案する。
本稿では,学習から思考までの手法を用いて,生成報酬モデルを改善する新しい手法を提案する。
我々は,様々なベンチマークで最新の結果が得られる推論機能を備えた生成的報酬モデルであるLibra-RMシリーズを開発した。
論文 参考訳(メタデータ) (2025-07-29T10:02:43Z) - Inverse Scaling in Test-Time Compute [51.16323216811257]
LRM(Large Reasoning Models)の推論長の延長は性能を低下させる。
モデルが長い理由付けをする場合には、5つの異なる障害モードを特定します。
これらの結果は、テストタイムの計算スケーリングはモデル機能の改善に引き続き期待できるが、問題のある推論パターンを必然的に補強する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-19T00:06:13Z) - AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。
しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。
より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文 参考訳(メタデータ) (2025-06-23T02:06:04Z) - THOUGHTTERMINATOR: Benchmarking, Calibrating, and Mitigating Overthinking in Reasoning Models [65.39456695678713]
本稿では,問題レベルの難易度を近似的に測定し,問題の難易度と最適なトークン使用量との間に明確な関係があることを実証する。
一般に、推論モデルは、特に簡単な問題に対して、キャリブレーションが不十分である。
トレーニング不要なブラックボックス復号法であるTHOUGHTTERMINATORを導入する。
論文 参考訳(メタデータ) (2025-04-17T22:16:30Z) - Leveraging Reasoning Model Answers to Enhance Non-Reasoning Model Capability [16.441081996257576]
我々は、推論集約モデルを利用して、計算負荷の少ない非推論モデルを改善することを提案する。
我々は、様々なベンチマークで一貫した改善を示し、モデルが直接質問に答える能力を向上するこのアプローチの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-13T16:26:56Z) - Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。
SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。
本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文 参考訳(メタデータ) (2025-03-04T14:43:25Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。