論文の概要: Quantifying construct validity in large language model evaluations
- arxiv url: http://arxiv.org/abs/2602.15532v1
- Date: Tue, 17 Feb 2026 12:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.058573
- Title: Quantifying construct validity in large language model evaluations
- Title(参考訳): 大規模言語モデル評価における構成妥当性の定量化
- Authors: Ryan Othniel Kearns,
- Abstract要約: LLMコミュニティは、ベンチマーク結果を一般的なモデル機能と同義であるかのように報告することが多い。
ベンチマークには、テストセットの汚染やアノテータエラーなど、パフォーマンスを歪ませる問題がある。
ベンチマークが測定したい能力の信頼できる指標であることをどうやって知ることができるのか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The LLM community often reports benchmark results as if they are synonymous with general model capabilities. However, benchmarks can have problems that distort performance, like test set contamination and annotator error. How can we know that a benchmark is a reliable indicator of some capability that we want to measure? This question concerns the construct validity of LLM benchmarks, and it requires separating benchmark results from capabilities when we model and predict LLM performance. Both social scientists and computer scientists propose formal models - latent factor models and scaling laws - for identifying the capabilities underlying benchmark scores. However, neither technique is satisfactory for construct validity. Latent factor models ignore scaling laws, and as a result, the capabilities they extract often proxy model size. Scaling laws ignore measurement error, and as a result, the capabilities they extract are both uninterpretable and overfit to the observed benchmarks. This thesis presents the structured capabilities model, the first model to extract interpretable and generalisable capabilities from a large collection of LLM benchmark results. I fit this model and its two alternatives on a large sample of results from the OpenLLM Leaderboard. Structured capabilities outperform latent factor models on parsimonious fit indices, and exhibit better out-of-distribution benchmark prediction than scaling laws. These improvements are possible because neither existing approach separates model scale from capabilities in the appropriate way. Model scale should inform capabilities, as in scaling laws, and these capabilities should inform observed results up to measurement error, as in latent factor models. In combining these two insights, structured capabilities demonstrate better explanatory and predictive power for quantifying construct validity in LLM evaluations.
- Abstract(参考訳): LLMコミュニティは、ベンチマーク結果を一般的なモデル機能と同義であるかのように報告することが多い。
しかし、ベンチマークには、テストセットの汚染やアノテータのエラーなど、パフォーマンスを歪ませる問題がある。
ベンチマークが測定したい能力の信頼できる指標であることをどうやって知ることができるのか?
この問題は, LLM ベンチマークの構成妥当性を問うものであり, LLM 性能をモデル化し予測する際には, 評価結果を機能から分離する必要がある。
社会科学者と計算機科学者の両方が、ベンチマークスコアの基盤となる能力を特定するために、形式モデル(潜在因子モデルとスケーリング法則)を提案している。
しかし、どちらの手法も構成の妥当性に満足できない。
潜在因子モデルはスケーリング法則を無視し、結果として、それらが抽出する機能はしばしばモデルサイズをプロキシする。
スケーリング法則は測定誤差を無視し、その結果、それらが抽出する能力は解釈不能であり、観測されたベンチマークに過度に適合する。
この論文は、LLMベンチマーク結果の大規模なコレクションから解釈可能かつ一般化可能な機能を抽出する最初のモデルである構造化機能モデルを示す。
私はこのモデルと2つの代替案をOpenLLM Leaderboardの結果の大規模なサンプルに適合させます。
構造的能力は、類似の適合指標上で潜在因子モデルより優れており、スケーリング法則よりも分布外ベンチマーク予測が優れている。
これらの改善は、どちらの既存アプローチも適切な方法でモデルスケールを機能から分離しないため可能である。
モデルスケールは、スケーリング法則のように機能に通知し、これらの能力は、潜在因子モデルのように、観測された結果から測定誤差までを知らせるべきである。
これらの2つの知見を組み合わせることで、構造化された能力は、LCM評価における構成妥当性を定量化するためのより良い説明力と予測力を示す。
関連論文リスト
- From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われている。
LLMの出力を単一のデータポイントとして扱うことは、LLMの確率的性質に固有の情報を過小評価する。
本稿では, LLMのトークンレベルの確率から導かれる「モデル信念」を紹介し, 定式化する。
論文 参考訳(メタデータ) (2025-12-29T03:50:40Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。
Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。
LASSO を用いて Model-to-Match フレームワークを運用する。
論文 参考訳(メタデータ) (2023-02-23T00:43:03Z) - Measuring the Driving Forces of Predictive Performance: Application to Credit Scoring [0.0]
本稿では,予測モデルに関連するコントリビューションに性能指標を分解するXPER手法を紹介する。
XPERは理論上はShapley値に基づいており、モデル非依存とパフォーマンスメトリック非依存の両方である。
モデル性能の驚くほど大きな部分を、少数の機能が説明できることを示す。
論文 参考訳(メタデータ) (2022-12-12T13:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。