論文の概要: Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14676v1
- Date: Mon, 16 Mar 2026 00:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.962114
- Title: Scalable Text-Embedding-informed Cognitive Diagnosis of Large Language Models
- Title(参考訳): 拡張可能なテキスト埋め込み型大規模言語モデルの認知診断
- Authors: Jia Liu, Zhiyu Xu, Yuqi Gu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なベンチマークで顕著なパフォーマンスを達成した。
既存の評価プラクティスは、根底にある推論能力の曖昧な粗い要約メトリクスに大きく依存しています。
本研究では,認知診断モデル(CDM)を心理測定に適応させる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.86897953445012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance on diverse benchmarks, yet existing evaluation practices largely rely on coarse summary metrics that obscure underlying reasoning abilities. In this work, we propose novel methodologies to adapt cognitive diagnosis models (CDMs) in psychometrics to LLM evaluation, enabling fine-grained diagnosis via multidimensional discrete capability profiles and interpretable characterizations of LLM strengths and weaknesses. First, to enable CDM-based evaluation at benchmark scale (more than 1000 items), we propose a scalable method that jointly estimates LLM mastery profiles and the item-attribute Q-matrix, addressing key challenges posed by high-dimensional latent attributes (K > 20), large item pools, and the prohibitive computational cost of existing marginal maximum likelihood-based estimation. Second, we incorporate item-level textual information to construct AI-embedding-informed priors for the Q-matrix, stabilizing high-dimensional estimation while reducing reliance on costly human specification. We develop an efficient stochastic-approximation algorithm to jointly estimate LLM mastery profiles and the Q-matrix that balances data fit with text-embedding-informed priors. Simulation studies demonstrate accurate parameter recovery. An application to the MATH Level 5 benchmark illustrates the practical utility of our method for LLM evaluation and uncovers useful insights into LLMs' fine-grained capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なベンチマークで顕著なパフォーマンスを達成したが、既存の評価手法は、基礎となる推論能力が不明な粗い要約指標に大きく依存している。
本研究では,認知診断モデル(CDM)をLCM評価に適用するための新しい手法を提案する。
まず,CDMによる評価をベンチマークスケール(1000項目以上)で行えるように,LCMの熟達プロファイルとアイテム属性Q行列を共同で推定するスケーラブルな手法を提案する。
第2に、アイテムレベルのテキスト情報を組み込んで、Q行列のAI埋め込みインフォームドプリエンスを構築することにより、高次元推定を安定化し、コストのかかる人的仕様への依存を低減させる。
我々は,LLMの熟達プロファイルとテキスト埋め込み情報に適合するデータのバランスをとるQ行列を共同で推定する,効率的な確率近似アルゴリズムを開発した。
シミュレーション研究は正確なパラメータ回復を示す。
The MATH Level 5 benchmark is presented the practical use of our method for LLM evaluation andcovers useful insights to LLMs's fine-fine capabilities。
関連論文リスト
- RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - Nonparametric LLM Evaluation from Preference Data [86.96268870461472]
本研究では,大規模言語モデル (LLM) を選好データから比較・ランク付けするための非パラメトリック統計フレームワークDMLEvalを提案する。
我々のフレームワークは、LLMを比較したり、ランキングしたりするための強力な最先端の手法を実践者に提供します。
論文 参考訳(メタデータ) (2026-01-29T15:00:07Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。
人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。
その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文 参考訳(メタデータ) (2025-03-15T10:54:35Z) - PhyloLM : Inferring the Phylogeny of Large Language Models and Predicting their Performances in Benchmarks [13.503004451037212]
本稿では,Large Language Models(LLMs)に系統解析アルゴリズムを適用するPhyloLMを紹介する。
本手法は, LLMsの出力の類似性に基づいて系統的距離測定値を算出する。
我々の系統的距離は標準ベンチマークの性能を予測し,その機能的妥当性を示す。
論文 参考訳(メタデータ) (2024-04-06T16:16:30Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities [4.493507573183107]
大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T01:29:19Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。