論文の概要: CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task
- arxiv url: http://arxiv.org/abs/2509.24422v1
- Date: Mon, 29 Sep 2025 08:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.845572
- Title: CDT: A Comprehensive Capability Framework for Large Language Models Across Cognition, Domain, and Task
- Title(参考訳): CDT:認知、ドメイン、タスク全体にわたる大規模言語モデルのための総合的な機能フレームワーク
- Authors: Haosi Mo, Xinyu Ma, Xuebo Liu, Derek F. Wong, Yu Li, Jie Liu, Min Zhang,
- Abstract要約: LLM(Large Language Models)の最近の進歩は、その能力を大幅に強化している。
既存のベンチマークでは、LLM能力を評価するための総合的なフレームワークが欠如しているため、孤立した能力に重点を置いていることが多い。
本稿では,3次元にまたがるモデルの性能を包括的に測定するコグニション・ドメイン・タスク(CDT)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.27354010985993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have significantly enhanced their capabilities, highlighting the need for comprehensive evaluation frameworks that extend beyond task-specific benchmarks. However, existing benchmarks often focus on isolated abilities, lacking a holistic framework for assessing LLM capabilities. To address this gap, we propose the Cognition-Domain-Task (CDT) framework, which comprehensively measures a model's capabilities across three dimensions. We expand the scope of model capability definitions at the cognitive level by incorporating the Cattell-Horn-Carroll cognitive theory, refining the categorization of model capabilities. We apply CDT in two directions: dataset capability evaluation and data selection. Experiments show that our capability metrics correlate well with downstream performance and can support effective dataset analysis and construction. The experiments on data selection also show significant improvements in both general and specific benchmarks, achieving scores of 44.3 and 45.4, with an increase of 1.6 and 2.2 points over the baselines, respectively. These results validate the effectiveness and practicality of CDT. Source code and models are available at https://github.com/Alessa-mo/CDT.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、タスク固有のベンチマークを超えて拡張された包括的な評価フレームワークの必要性を強調しながら、その機能を大幅に強化している。
しかし、既存のベンチマークは孤立した能力に重点を置いており、LLM能力を評価するための包括的なフレームワークが欠如している。
このギャップに対処するため、我々は3次元にわたるモデルの能力を包括的に測定するCognition-Domain-Task(CDT)フレームワークを提案する。
モデル能力の定義範囲を、キャッテル・ホール・キャロル認知理論を取り入れ、モデル能力の分類を洗練することにより、認知レベルで拡大する。
データセット能力評価とデータ選択の2つの方向にCDTを適用する。
実験によると、我々の能力メトリクスは下流のパフォーマンスとよく相関しており、効果的なデータセット分析と構築をサポートすることができる。
データ選択の実験では、一般的なベンチマークと特定のベンチマークの両方が大幅に改善され、スコアは44.3点と45.4点となり、それぞれ1.6点と2.2点になった。
これらの結果はCDTの有効性と実用性を検証する。
ソースコードとモデルはhttps://github.com/Alessa-mo/CDT.comで入手できる。
関連論文リスト
- Exploring Zero-Shot ACSA with Unified Meaning Representation in Chain-of-Thought Prompting [4.14197005718384]
Aspect-Category Sentiment Analysis (ACSA)は、レビュー内の特定のテーマと関連する感情を識別することによって、詳細な洞察を提供する。
ゼロショット設定で大規模言語モデル(LLM)を活用することは、データアノテーションのリソースが制限される実用的な代替手段である、と我々は主張する。
本稿では、中間的統一意味表現(UMR)を利用してACSAタスクの推論プロセスを構築する新しいChain-of-Thought(CoT)プロンプト手法を提案する。
論文 参考訳(メタデータ) (2025-12-22T18:23:37Z) - Learning Compact Representations of LLM Abilities via Item Response Theory [35.74367665390977]
大規模言語モデル(LLM)のコンパクト表現の学習方法について検討する。
この問題は、与えられたモデルが特定のクエリに正しく答える確率を推定するものである。
これらのパラメータを共同で学習するために、モデルとクエリレベルの埋め込みを結合するMixture-of-Experts(MoE)ネットワークを導入する。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models [37.45103473809928]
In2Coreアルゴリズムは,トレーニングモデルと評価サンプルの相関関係を解析し,コアセットを選択する。
LLMの微調整データにアルゴリズムを適用することで、トレーニングデータの50%で同様の性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-07T05:48:05Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。