論文の概要: Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities
- arxiv url: http://arxiv.org/abs/2604.12191v1
- Date: Tue, 14 Apr 2026 01:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.193145
- Title: Beyond Scores: Diagnostic LLM Evaluation via Fine-Grained Abilities
- Title(参考訳): スコアを超えて:細粒度能力によるLCM診断
- Authors: Xu Zhang, Xudong Gong, Jiacheng Qin, Qiang Wang, JiaQi Liao, Zhe Wang, Dawei Feng, Bo Ding,
- Abstract要約: 大規模言語モデルの現在の評価は、様々なタスクにまたがるパフォーマンスを単一のスコアに集約する。
このギャップを動機として,複数のきめ細かな次元にまたがるモデル能力を推定する認知診断フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.946544253237793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluations of large language models aggregate performance across diverse tasks into single scores. This obscures fine-grained ability variation, limiting targeted model improvement and ability-guided selection for specific tasks. Motivated by this gap, we propose a cognitive diagnostic framework that estimates model abilities across multiple fine-grained dimensions. For mathematics, we construct a 35-dimensional ability taxonomy grounded in cognitive theory and domain knowledge. The framework employs multidimensional Item Response Theory with an item-ability association matrix to estimate fine-grained ability levels, which in turn enable prediction of performance on unseen items (questions of benchmark). Evaluated on 41 models, our approach demonstrates strong criterion validity, consistent ability estimates across benchmarks, and accurate prediction of unseen items with AUC ranging from 0.80 to 0.89 within benchmarks and from 0.77 to 0.86 across benchmarks, substantially exceeding trivial baselines. The framework generalizes across scientific domains, producing consistent diagnostic performance in physics (27 dimensions), chemistry (58 dimensions), and computer science (12 dimensions). This work establishes a principled framework for fine-grained assessment of abilities, with potential applications in targeted training, ability-guided model selection, and ability-aware benchmark design.
- Abstract(参考訳): 大規模言語モデルの現在の評価は、様々なタスクにまたがるパフォーマンスを単一のスコアに集約する。
これは、特定のタスクに対する目標モデルの改善と能力誘導の選択を制限する、きめ細かい能力のバリエーションを曖昧にする。
このギャップを動機として,複数のきめ細かな次元にまたがるモデル能力を推定する認知診断フレームワークを提案する。
数学において,認知理論とドメイン知識に基づく35次元能力分類法を構築する。
このフレームワークは、多次元アイテム応答理論とアイテム能力関連行列を用いて、きめ細かい能力レベルを推定し、その結果、目に見えないアイテムのパフォーマンスの予測を可能にする(ベンチマークの探求)。
41のモデルで評価した結果,ベンチマーク間での強い基準妥当性,一貫した能力推定,ベンチマーク内でのAUCの未確認項目の正確な予測,ベンチマークでの0.80から0.89,ベンチマークでの0.77から0.86まで,ほぼ自明なベースラインを超える結果が得られた。
このフレームワークは科学領域にまたがって一般化され、物理学(27次元)、化学(58次元)、計算機科学(12次元)において一貫した診断性能を生み出す。
この研究は、目標トレーニング、能力誘導型モデル選択、能力認識型ベンチマーク設計に潜在的に適用可能な、能力のきめ細かい評価のための原則化されたフレームワークを確立する。
関連論文リスト
- DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models [13.17188927209697]
DevBenchは、現実的なコード補完タスクにおいて、LLM(Large Language Models)を評価するために設計されたテレメトリ駆動のベンチマークである。
これには、6つのプログラミング言語で1,800の評価インスタンスと、実際の開発者テレメトリから派生した6つのタスクカテゴリが含まれている。
論文 参考訳(メタデータ) (2026-01-17T03:33:08Z) - MSC-180: A Benchmark for Automated Formal Theorem Proving from Mathematical Subject Classification [21.9173105378467]
現在の大言語モデル(LLM)に基づく定理証明は、制限された領域カバレッジや数学的推論の弱い一般化といった制限に悩まされている。
我々は,MSC 2020の数学的対象分類に基づく評価ベンチマークであるMSC-180を提案する。
180の形式的検証問題、60の数学分野から3つの先進的な問題が含まれており、学部から大学院まで多岐にわたる。
論文 参考訳(メタデータ) (2025-12-20T07:39:19Z) - CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task [49.27354010985993]
LLM(Large Language Models)の最近の進歩は、その能力を大幅に強化している。
既存のベンチマークでは、LLM能力を評価するための総合的なフレームワークが欠如しているため、孤立した能力に重点を置いていることが多い。
本稿では,3次元にまたがるモデルの性能を包括的に測定するコグニション・ドメイン・タスク(CDT)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T08:10:29Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。