論文の概要: SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2505.16646v1
- Date: Thu, 22 May 2025 13:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.311216
- Title: SMART: Self-Generating and Self-Validating Multi-Dimensional Assessment for LLMs' Mathematical Problem Solving
- Title(参考訳): SMART:LLMの数学的問題解決のための自己生成・自己検証多次元評価
- Authors: Yujie Hou, Ting Zhang, Mei Wang, Xuetao Ma, Hu Huang,
- Abstract要約: 大規模言語モデルは、様々な数学的なベンチマークで顕著な結果を得た。
最終回答の正確さなどの一般的な評価指標は、関係する下位の能力を乱すことができない。
SMART(Self-Generating and Self-Validating Multi-dimensional Assessment Framework)を紹介する。
- 参考スコア(独自算出の注目度): 15.302898724031833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have achieved remarkable results on a variety of mathematical benchmarks. However, concerns remain as to whether these successes reflect genuine mathematical reasoning or superficial pattern recognition. Common evaluation metrics, such as final answer accuracy, fail to disentangle the underlying competencies involved, offering limited diagnostic value. To address these limitations, we introduce SMART: a Self-Generating and Self-Validating Multi-Dimensional Assessment Framework. SMART decomposes mathematical problem solving into four distinct dimensions: understanding, reasoning, arithmetic, and reflection \& refinement. Each dimension is evaluated independently through tailored tasks, enabling interpretable and fine-grained analysis of LLM behavior. Crucially, SMART integrates an automated self-generating and self-validating mechanism to produce and verify benchmark data, ensuring both scalability and reliability. We apply SMART to 21 state-of-the-art open- and closed-source LLMs, uncovering significant discrepancies in their abilities across different dimensions. Our findings demonstrate the inadequacy of final answer accuracy as a sole metric and motivate a new holistic metric to better capture true problem-solving capabilities. Code and benchmarks will be released upon acceptance.
- Abstract(参考訳): 大規模言語モデルは、様々な数学的なベンチマークで顕著な結果を得た。
しかし、これらの成功が真の数学的推論や表面的パターン認識を反映しているかどうかについては疑問が残る。
最終回答の正確さなどの一般的な評価指標は、関連する能力の混乱を招き、限られた診断値を提供する。
これらの制約に対処するために、SMART: Self-Generating and Self-Validating Multi-dimensional Assessment Frameworkを紹介します。
SMARTは、数学的問題解決を、理解、推論、算術、リフレクションの4つの異なる次元に分解する。
各次元は、調整されたタスクによって独立に評価され、LLMの振る舞いの解釈可能かつきめ細かい分析を可能にする。
重要な点として、SMARTは自動自己生成および自己検証機構を統合して、ベンチマークデータの生成と検証を行い、スケーラビリティと信頼性の両立を保証する。
SMARTを21の最先端のオープンソースおよびクローズドソースのLCMに適用し、異なる次元にまたがるそれらの能力の重大な相違を明らかにする。
以上の結果から, 解答精度の低下が唯一の指標であり, 真の解答能力をよりよく捉えるために, 新たな総合的尺度のモチベーションが得られた。
コードとベンチマークは受け入れ次第リリースされる。
関連論文リスト
- Self-Memory Alignment: Mitigating Factual Hallucinations with Generalized Improvement [37.59724553583446]
大きな言語モデル(LLM)は、しばしば客観的な事実と反応を一致させるのに苦労し、結果として幻覚をもたらす。
自己記憶アライメント(SMA)を導入し、正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、SMAはLLMの全体的な性能を著しく改善し、現実性に関する様々なベンチマークを一貫して強化し、有用性や包括的スキルも向上した。
論文 参考訳(メタデータ) (2025-02-26T13:34:52Z) - Emergence of Self-Identity in AI: A Mathematical Framework and Empirical Study with Generative Large Language Models [4.036530158875673]
本稿では,AIシステムにおける自己同一性の定義と定量化のための数学的枠組みを提案する。
我々の枠組みは、2つの数学的に定量化された条件から自己同一性が生じることを示唆している。
本研究の意義は、ヒューマノイドロボット工学や自律システムの分野に即時に関係している。
論文 参考訳(メタデータ) (2024-11-27T17:23:47Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - ErrorRadar: Benchmarking Complex Mathematical Reasoning of Multimodal Large Language Models Via Error Detection [60.297079601066784]
エラー検出におけるMLLMの能力を評価するために設計された最初のベンチマークであるErrorRadarを紹介する。
ErrorRadarはエラーステップ識別とエラー分類という2つのサブタスクを評価している。
2500の高品質なマルチモーダルK-12数学問題で構成され、実世界の学生相互作用から収集される。
GPT-4oの優れた性能は、まだ人間の評価に約10%遅れているため、大きな課題が残っている。
論文 参考訳(メタデータ) (2024-10-06T14:59:09Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - MalAlgoQA: Pedagogical Evaluation of Counterfactual Reasoning in Large Language Models and Implications for AI in Education [2.872215065231376]
本稿では,MalAlgoQAを提案する。MalAlgoQAは,大規模言語モデルの対実的推論能力を評価するために設計されたデータセットである。
MalAlgoQAの核心は、誤った答えの選択の裏にある、不完全で論理的に一貫性のある推論経路の理論的根拠である。
論文 参考訳(メタデータ) (2024-07-01T03:39:13Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。