論文の概要: STEMVerse: A Dual-Axis Diagnostic Framework for STEM Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.02497v1
- Date: Wed, 14 Jan 2026 07:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.392205
- Title: STEMVerse: A Dual-Axis Diagnostic Framework for STEM Reasoning in Large Language Models
- Title(参考訳): STEMVerse: 大規模言語モデルにおけるSTEM推論のための2軸診断フレームワーク
- Authors: Xuzhao Li, Xuchen Li, Jian Zhao, Shiyu Hu,
- Abstract要約: 大規模言語モデル(LLM)の推論能力の分析を目的とした診断フレームワークを提案する。
私たちは、主流ベンチマークから2万以上のSTEM問題を、統一された"Discipline $times$ Cognition"機能空間に再集約します。
実験結果から,STEM推論における構造的故障パターンが明らかになった。
- 参考スコア(独自算出の注目度): 14.280808299733868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) achieve significant breakthroughs in complex reasoning tasks, evaluating their proficiency in science, technology, engineering, and mathematics (STEM) has become a primary method for measuring machine intelligence. However, current evaluation paradigms often treat benchmarks as isolated "silos," offering only monolithic aggregate scores that neglect the intricacies of both academic specialization and cognitive depth. This result-oriented approach fails to distinguish whether model errors stem from insufficient domain knowledge or deficiencies in cognitive capacity, thereby limiting the diagnostic value. To address this, we propose STEMVerse, a diagnostic framework designed to systematically analyze the STEM reasoning capabilities of LLMs. This framework characterizes model performance across academic specialization and cognitive complexity to map the capability required for reasoning. We re-aggregate over 20,000 STEM problems from mainstream benchmarks into a unified "Discipline $\times$ Cognition" capability space, assigning dual-axis labels to every instance. Utilizing this unified diagnostic framework, we systematically evaluate representative LLM families across varying parameter scales and training paradigms. Our empirical results reveal structural failure patterns in STEM reasoning. By integrating multi-disciplinary coverage and fine-grained cognitive stratification into a unified framework, STEMVerse provides a clear and actionable perspective for understanding the scientific reasoning characteristics of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論タスクにおいて大きなブレークスルーを達成し、科学、技術、工学、数学(STEM)の熟練度を評価することが、機械知能を測定する主要な方法となっている。
しかしながら、現在の評価パラダイムは、ベンチマークを孤立した「サイロ」として扱い、学術的専門化と認知的深度の両方の複雑さを無視したモノリシックな集計スコアのみを提供する。
この結果指向のアプローチでは、モデルエラーがドメイン知識の不足から生じるのか、あるいは認知能力の欠如から生じるのかを区別できないため、診断値が制限される。
そこで本研究では,LLMのSTEM推論能力を体系的に解析するための診断フレームワークであるSTEMVerseを提案する。
このフレームワークは、アカデミックな特殊化と認知の複雑さにまたがるモデルパフォーマンスを特徴付け、推論に必要な能力をマッピングする。
私たちは、主流ベンチマークから2万以上のSTEM問題を統一された"Discipline $\times$ Cognition"機能空間に再集約し、すべてのインスタンスに二重軸ラベルを割り当てます。
この統合診断フレームワークを利用することで、様々なパラメータ尺度と訓練パラダイムで代表的LLMファミリーを体系的に評価する。
実験結果から,STEM推論における構造的故障パターンが明らかになった。
STEMVerseは、多分野のカバレッジときめ細かい認知階層化を統一されたフレームワークに統合することにより、LLMの科学的推論特性を理解するための明確で実用的な視点を提供する。
関連論文リスト
- LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Interpretability Framework for LLMs in Undergraduate Calculus [0.0]
大規模言語モデル(LLM)は、教育においてますます使われているが、その正確性だけでは、彼らの問題解決行動の品質、信頼性、教育的妥当性を捉えていない。
本稿では,LLM生成解を代表領域として用いた新しい解釈可能性フレームワークを提案する。
提案手法は, 推論フロー抽出と解を意味ラベル付き操作や概念に分解し, 即時アブレーション解析と組み合わせて, 入力サリエンスと出力安定性を評価する。
論文 参考訳(メタデータ) (2025-10-19T17:20:36Z) - Fundamentals of Building Autonomous LLM Agents [64.39018305018904]
本稿では,大規模言語モデル(LLM)を用いたエージェントのアーキテクチャと実装手法について概説する。
この研究は、複雑なタスクを自動化し、人間の能力でパフォーマンスのギャップを埋めることのできる「アジェンティック」なLLMを開発するためのパターンを探求することを目的としている。
論文 参考訳(メタデータ) (2025-10-10T10:32:39Z) - Generative Large Language Models for Knowledge Representation: A Systematic Review of Concept Map Generation [1.163826615891678]
生成型大規模言語モデル(LLM)の台頭により,概念地図による知識表現を自動化する新たな機会が開かれた。
本総説では, LLM を用いた概念マップ生成に関する新たな研究の体系化について述べる。
人間のループシステム、弱い教師付き学習モデル、微調整されたドメイン固有LLM、素早いエンジニアリングによる事前訓練されたLLM、知識ベースを統合するハイブリッドシステム、シンボルと統計ツールを組み合わせたモジュラーフレームワークである。
論文 参考訳(メタデータ) (2025-09-18T02:36:54Z) - STEM: Efficient Relative Capability Evaluation of LLMs through Structured Transition Samples [3.41981716024098]
大規模言語モデル(LLM)の評価は、モデル機能が急速に進歩するにつれて、ますます困難になっている。
軽量かつ解釈可能な評価フレームワークとして textbfStructured textbfTransition textbfEvaluation textbfMethod (STEM) を提案する。
論文 参考訳(メタデータ) (2025-08-16T16:36:43Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Scaling and Beyond: Advancing Spatial Reasoning in MLLMs Requires New Recipes [84.1059652774853]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。
近年の研究では、空間的推論能力の限界が明らかにされている。
この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文 参考訳(メタデータ) (2025-04-21T11:48:39Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Ontologies in Design: How Imagining a Tree Reveals Possibilites and Assumptions in Large Language Models [0.4563238570902448]
価値に基づく分析は重要であるが、これらのシステムを分析する上ではあまり認識されていない。
多元主義との実践に基づく関わりの必要性を示唆し、設計の方向性を検討するための4つの方向性を提供する。
論文 参考訳(メタデータ) (2025-04-03T21:04:36Z) - MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models [5.02953506943752]
MM-IQは、視覚的推論問題4,776の大規模トレーニングセットと、8つの異なる推論パラダイムにまたがる2,710の精巧にキュレートされたテスト項目からなる総合的な評価フレームワークである。
最先端のアーキテクチャでさえ、ランダムなチャンスに対してわずかに優れたパフォーマンスしか達成できません。
近年の大規模推論モデルの増加にインスパイアされたベースラインとして,検証可能な報酬関数を用いた強化学習によってトレーニングされたマルチモーダル推論モデルもリリースした。
論文 参考訳(メタデータ) (2025-02-02T07:12:03Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。