論文の概要: Establishing Construct Validity in LLM Capability Benchmarks Requires Nomological Networks
- arxiv url: http://arxiv.org/abs/2603.15121v1
- Date: Mon, 16 Mar 2026 11:17:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.091679
- Title: Establishing Construct Validity in LLM Capability Benchmarks Requires Nomological Networks
- Title(参考訳): ノモロジーネットワークを必要とするLCM能力ベンチマークにおける構成妥当性の確立
- Authors: Timo Freiesleben,
- Abstract要約: 機械学習における最近の研究は、ベンチマークのパフォーマンスに基づいて、推論や心の理論のような人間のような能力を大規模言語モデル(LLM)に特化している。
本稿では, 理論的能力と実測値とをリンクする問題として, 構成妥当性のレンズを用いて, この実践について検討する。
- 参考スコア(独自算出の注目度): 1.3367903535457366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in machine learning increasingly attributes human-like capabilities such as reasoning or theory of mind to large language models (LLMs) on the basis of benchmark performance. This paper examines this practice through the lens of construct validity, understood as the problem of linking theoretical capabilities to their empirical measurements. It contrasts three influential frameworks: the nomological account developed by Cronbach and Meehl, the inferential account proposed by Messick and refined by Kane, and Borsboom's causal account. I argue that the nomological account provides the most suitable foundation for current LLM capability research. It avoids the strong ontological commitments of the causal account while offering a more substantive framework for articulating construct meaning than the inferential account. I explore the conceptual implications of adopting the nomological account for LLM research through a concrete case: the assessment of reasoning capabilities in LLMs.
- Abstract(参考訳): 機械学習における最近の研究は、ベンチマークのパフォーマンスに基づいて、推論や心の理論のような人間のような能力を大規模言語モデル(LLM)に特化している。
本稿では, 理論的能力と実測値とをリンクする問題として, 構成妥当性のレンズを用いて, この実践について検討する。
クロンバッハとメールによって開発されたノモロジー的説明、メシックによって提案され、ケーンによって洗練された推論的説明、ボルスボームの因果的説明の3つとは対照的である。
私は、このノモロジカルな説明が、現在のLLM能力研究に最も適した基礎を提供すると論じる。
因果勘定の強い存在論的コミットメントを回避し、推論勘定よりも構成的意味を明確にするためのより実質的な枠組みを提供する。
実例を通して, LLM研究のノモロジカルな説明を採用するという概念的意味について考察する。
関連論文リスト
- Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。
本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文 参考訳(メタデータ) (2025-05-17T04:59:32Z) - CausalBench: A Comprehensive Benchmark for Causal Learning Capability of LLMs [27.362012903540492]
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
因果関係を理解する能力は、大言語モデル(LLM)の出力説明と反実的推論の能力に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2024-04-09T14:40:08Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。