論文の概要: Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2605.09292v1
- Date: Sun, 10 May 2026 03:38:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.171867
- Title: Beyond Accuracy: Evaluating Strategy Diversity in LLM Mathematical Reasoning
- Title(参考訳): LLM数学的推論における戦略多様性の評価
- Authors: Xia Yang, Xuanyi Zhang, Hao Hu, Feng Ji,
- Abstract要約: AMC 10/12問題とAIME問題に基づく戦略レベル評価フレームワーク。
回答の正確さと戦略の多様性の間には明らかな疎結合がある。
Gemini, DeepSeek, GPT, Claudeは184, 152, 151, 110の異なる有効な戦略を生成する。
- 参考スコア(独自算出の注目度): 11.576914513156316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models now achieve high final-answer accuracy on mathematical reasoning benchmarks, but accuracy alone does not capture reasoning flexibility. We introduce a strategy-level evaluation framework instantiated on 80 AMC 10/12 and AIME problems with 217 AoPS-derived reference strategy families. Model outputs are annotated for strategy identity, validity, and correctness using dual-AI coding with human adjudication. Across four frontier models, we find a pronounced decoupling between answer accuracy and strategy diversity. Under a single-solution prompt, all models achieve high accuracy (95%-100%), but under a multiple-strategy prompt they recover substantially fewer strategies than the human reference set. Gemini, DeepSeek, GPT, and Claude generate 184, 152, 151, and 110 distinct valid strategies, respectively, with the largest gaps in Geometry and Number Theory. The models collectively produce 50 benchmark-novel valid strategies, indicating both incomplete coverage of human strategies and some capacity for alternative reasoning. A repeated-run robustness check on 20 problems shows diminishing gains in discovered strategies, with the strongest model recovering only 39 of 55 AoPS-reference strategies (71%) after three runs. These findings position strategy diversity as a complementary dimension for evaluating mathematical reasoning beyond answer correctness.
- Abstract(参考訳): 大規模言語モデルは、数学的推論ベンチマークにおいて高い最終回答精度を達成するが、精度だけでは推論の柔軟性を捉えない。
80 AMC 10/12でインスタンス化された戦略レベル評価フレームワークと217 AoPS由来の基準戦略ファミリを用いたAIME問題を提案する。
モデル出力は、人間の判断による二重AI符号化を用いて、戦略の同一性、妥当性、正当性を注釈付けする。
4つのフロンティアモデル全体では、解答精度と戦略の多様性の間に明らかな疎結合がある。
単一解法プロンプトの下では、全てのモデルは高い精度(95%-100%)を達成するが、多重ストラテジープロンプトでは、人間の参照セットよりもかなり少ない戦略を回復する。
Gemini, DeepSeek, GPT, Claudeはそれぞれ184, 152, 151, 110の異なる有効戦略を生成する。
これらのモデルは、総合的に50のベンチマークノーベル有効戦略を生成し、人間の戦略の不完全なカバレッジと、代替的推論の能力の両方を示している。
20の問題を繰り返すロバスト性チェックは、発見戦略における利得の低下を示し、最強のモデルは3回の実行後に55のAoPS-参照戦略 (71%) のうち39しか回復しなかった。
これらの知見は,回答の正しさを超えた数学的推論を評価するための相補的な次元として戦略の多様性を位置づけた。
関連論文リスト
- Strategy Executability in Mathematical Reasoning: Leveraging Human-Model Differences for Effective Guidance [86.46794021499511]
戦略利用と戦略実行可能性の間には、これまで未定のギャップがある。
SSR(Selective Strategy Retrieval)は,実行可能性を明確にモデル化するテストタイムフレームワークである。
SSRは、直接解決、文脈内学習、単一ソースガイダンスよりも信頼性が高く一貫した改善をもたらす。
論文 参考訳(メタデータ) (2026-02-26T03:34:23Z) - Plan before Solving: Problem-Aware Strategy Routing for Mathematical Reasoning with LLMs [49.995906301946]
既存の手法は通常、数学的推論を行うためにLLM(Large Language Models)をガイドするための固定戦略を利用する。
分析の結果,単一戦略は問題固有の要件に適応できず,有効性と効率性のトレードオフを見落としていることが明らかとなった。
本稿では,PRISM(Planning and Routing through Instance-Specific Modeling)を提案する。
論文 参考訳(メタデータ) (2025-09-29T07:22:41Z) - LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory [7.8900549152197215]
本研究では,行動ゲーム理論に基づく評価フレームワークを導入する。
実験の結果,GPT-o3-mini,GPT-o1,DeepSeek-R1がほとんどのゲームを支配しているが,モデルスケールだけでは性能を判断できないことがわかった。
拡張の促進に関して、CoT(Chain-of-Thought)の促進は、特定のレベルのモデルに対してのみ戦略的推論を増大させ、他の場所では限定的な利得を提供するため、普遍的に効果的ではない。
論文 参考訳(メタデータ) (2025-02-27T18:58:31Z) - StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。
実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T09:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。