論文の概要: STEMVerse: A Dual-Axis Diagnostic Framework for STEM Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02497v1
- Date: Wed, 14 Jan 2026 07:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.392205
- Title: STEMVerse: A Dual-Axis Diagnostic Framework for STEM Reasoning in Large Language Models
- Title(参考訳): STEMVerse: 大規模言語モデルにおけるSTEM推論のための2軸診断フレームワーク
- Authors: Xuzhao Li, Xuchen Li, Jian Zhao, Shiyu Hu,
- Abstract要約: 大規模言語モデル(LLM)の推論能力の分析を目的とした診断フレームワークを提案する。
私たちは、主流ベンチマークから2万以上のSTEM問題を、統一された"Discipline $times$ Cognition"機能空間に再集約します。
実験結果から,STEM推論における構造的故障パターンが明らかになった。
- 参考スコア(独自算出の注目度): 14.280808299733868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) achieve significant breakthroughs in complex reasoning tasks, evaluating their proficiency in science, technology, engineering, and mathematics (STEM) has become a primary method for measuring machine intelligence. However, current evaluation paradigms often treat benchmarks as isolated "silos," offering only monolithic aggregate scores that neglect the intricacies of both academic specialization and cognitive depth. This result-oriented approach fails to distinguish whether model errors stem from insufficient domain knowledge or deficiencies in cognitive capacity, thereby limiting the diagnostic value. To address this, we propose STEMVerse, a diagnostic framework designed to systematically analyze the STEM reasoning capabilities of LLMs. This framework characterizes model performance across academic specialization and cognitive complexity to map the capability required for reasoning. We re-aggregate over 20,000 STEM problems from mainstream benchmarks into a unified "Discipline $\times$ Cognition" capability space, assigning dual-axis labels to every instance. Utilizing this unified diagnostic framework, we systematically evaluate representative LLM families across varying parameter scales and training paradigms. Our empirical results reveal structural failure patterns in STEM reasoning. By integrating multi-disciplinary coverage and fine-grained cognitive stratification into a unified framework, STEMVerse provides a clear and actionable perspective for understanding the scientific reasoning characteristics of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きなブレークスルーを達成し、科学、技術、工学、数学(STEM)の熟練度を評価することが、機械知能を測定する主要な方法となっている。
しかしながら、現在の評価パラダイムは、ベンチマークを孤立した「サイロ」として扱い、学術的専門化と認知的深度の両方の複雑さを無視したモノリシックな集計スコアのみを提供する。
この結果指向のアプローチでは、モデルエラーがドメイン知識の不足から生じるのか、あるいは認知能力の欠如から生じるのかを区別できないため、診断値が制限される。
そこで本研究では,LLMのSTEM推論能力を体系的に解析するための診断フレームワークであるSTEMVerseを提案する。
このフレームワークは、アカデミックな特殊化と認知の複雑さにまたがるモデルパフォーマンスを特徴付け、推論に必要な能力をマッピングする。
私たちは、主流ベンチマークから2万以上のSTEM問題を統一された"Discipline $\times$ Cognition"機能空間に再集約し、すべてのインスタンスに二重軸ラベルを割り当てます。
この統合診断フレームワークを利用することで、様々なパラメータ尺度と訓練パラダイムで代表的LLMファミリーを体系的に評価する。
実験結果から,STEM推論における構造的故障パターンが明らかになった。
STEMVerseは、多分野のカバレッジときめ細かい認知階層化を統一されたフレームワークに統合することにより、LLMの科学的推論特性を理解するための明確で実用的な視点を提供する。
関連論文リスト
- Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - Generative Large Language Models for Knowledge Representation: A Systematic Review of Concept Map Generation [1.163826615891678]
生成型大規模言語モデル(LLM)の台頭により,概念地図による知識表現を自動化する新たな機会が開かれた。
本総説では, LLM を用いた概念マップ生成に関する新たな研究の体系化について述べる。
人間のループシステム、弱い教師付き学習モデル、微調整されたドメイン固有LLM、素早いエンジニアリングによる事前訓練されたLLM、知識ベースを統合するハイブリッドシステム、シンボルと統計ツールを組み合わせたモジュラーフレームワークである。
論文 参考訳(メタデータ) (2025-09-18T02:36:54Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Ontologies in Design: How Imagining a Tree Reveals Possibilites and Assumptions in Large Language Models [0.4563238570902448]
価値に基づく分析は重要であるが、これらのシステムを分析する上ではあまり認識されていない。
多元主義との実践に基づく関わりの必要性を示唆し、設計の方向性を検討するための4つの方向性を提供する。
論文 参考訳(メタデータ) (2025-04-03T21:04:36Z) - MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文 参考訳(メタデータ) (2025-02-02T07:12:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。