論文の概要: CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task
- arxiv url: http://arxiv.org/abs/2509.24422v1
- Date: Mon, 29 Sep 2025 08:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.845572
- Title: CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task
- Title(参考訳): CDT:認知、ドメイン、タスク全体にわたる大規模言語モデルのための総合的な機能フレームワーク
- Authors: Haosi Mo, Xinyu Ma, Xuebo Liu, Derek F. Wong, Yu Li, Jie Liu, Min Zhang,
- Abstract要約: LLM(Large Language Models)の最近の進歩は、その能力を大幅に強化している。
既存のベンチマークでは、LLM能力を評価するための総合的なフレームワークが欠如しているため、孤立した能力に重点を置いていることが多い。
本稿では,3次元にまたがるモデルの性能を包括的に測定するコグニション・ドメイン・タスク(CDT)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.27354010985993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have significantly enhanced their capabilities, highlighting the need for comprehensive evaluation frameworks that extend beyond task-specific benchmarks. However, existing benchmarks often focus on isolated abilities, lacking a holistic framework for assessing LLM capabilities. To address this gap, we propose the Cognition-Domain-Task (CDT) framework, which comprehensively measures a model's capabilities across three dimensions. We expand the scope of model capability definitions at the cognitive level by incorporating the Cattell-Horn-Carroll cognitive theory, refining the categorization of model capabilities. We apply CDT in two directions: dataset capability evaluation and data selection. Experiments show that our capability metrics correlate well with downstream performance and can support effective dataset analysis and construction. The experiments on data selection also show significant improvements in both general and specific benchmarks, achieving scores of 44.3 and 45.4, with an increase of 1.6 and 2.2 points over the baselines, respectively. These results validate the effectiveness and practicality of CDT. Source code and models are available at https://github.com/Alessa-mo/CDT.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、タスク固有のベンチマークを超えて拡張された包括的な評価フレームワークの必要性を強調しながら、その機能を大幅に強化している。
しかし、既存のベンチマークは孤立した能力に重点を置いており、LLM能力を評価するための包括的なフレームワークが欠如している。
このギャップに対処するため、我々は3次元にわたるモデルの能力を包括的に測定するCognition-Domain-Task(CDT)フレームワークを提案する。
モデル能力の定義範囲を、キャッテル・ホール・キャロル認知理論を取り入れ、モデル能力の分類を洗練することにより、認知レベルで拡大する。
データセット能力評価とデータ選択の2つの方向にCDTを適用する。
実験によると、我々の能力メトリクスは下流のパフォーマンスとよく相関しており、効果的なデータセット分析と構築をサポートすることができる。
データ選択の実験では、一般的なベンチマークと特定のベンチマークの両方が大幅に改善され、スコアは44.3点と45.4点となり、それぞれ1.6点と2.2点になった。
これらの結果はCDTの有効性と実用性を検証する。
ソースコードとモデルはhttps://github.com/Alessa-mo/CDT.comで入手できる。
関連論文リスト
- Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。