論文の概要: Measuring What Cannot Be Surveyed: LLMs as Instruments for Latent Cognitive Variables in Labor Economics
- arxiv url: http://arxiv.org/abs/2604.02403v1
- Date: Thu, 02 Apr 2026 16:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.146797
- Title: Measuring What Cannot Be Surveyed: LLMs as Instruments for Latent Cognitive Variables in Labor Economics
- Title(参考訳): 調査できないものの測定:労働経済学における潜在認知変数の指標としてのLCM
- Authors: Cristian Espinal Maya,
- Abstract要約: 本稿では,Large Language Models (LLMs) を潜在経済変数の測定手段として用いるための理論的,実践的な基礎を確立する。
LLMが生成したスコアが有効な楽器を構成する4つの条件を定式化する。
次に、このフレームワークを18,796 O*NETタスクステートメントから構築されたAHC_o(Augmented Human Capital Index)に適用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper establishes the theoretical and practical foundations for using Large Language Models (LLMs) as measurement instruments for latent economic variables -- specifically variables that describe the cognitive content of occupational tasks at a level of granularity not achievable with existing survey instruments. I formalize four conditions under which LLM-generated scores constitute valid instruments: semantic exogeneity, construct relevance, monotonicity, and model invariance. I then apply this framework to the Augmented Human Capital Index (AHC_o), constructed from 18,796 O*NET task statements scored by Claude Haiku 4.5, and validated against six existing AI exposure indices. The index shows strong convergent validity (r = 0.85 with Eloundou GPT-gamma, r = 0.79 with Felten AIOE) and discriminant validity. Principal component analysis confirms that AI-related occupational measures span two distinct dimensions -- augmentation and substitution. Inter-rater reliability across two LLM models (n = 3,666 paired scores) yields Pearson r = 0.76 and Krippendorff's alpha = 0.71. Prompt sensitivity analysis across four alternative framings shows that task-level rankings are robust. Obviously Related Instrumental Variables (ORIV) estimation recovers coefficients 25% larger than OLS, consistent with classical measurement error attenuation. The methodology generalizes beyond labor economics to any domain where semantic content must be quantified at scale.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) を潜在経済変数の計測指標として用いるための理論的,実践的な基礎を確立する。
LLMが生成するスコアが有効な楽器を構成する4つの条件を定式化し、意味的異質性、構成的関連性、単調性、モデル不変性である。
このフレームワークをAHC_o(Augmented Human Capital Index)に適用し,Claude Haiku 4.5 が収集した 18,796 O*NET タスクステートメントから構築し,既存の6つのAI露出指標に対して検証した。
指数は強い収束正当性(Eloundou GPT-gammaのr = 0.85、Felten AIOEのr = 0.79)と判別正当性を示す。
主成分分析は、AI関連の職業的措置が2つの異なる次元(強化と置換)にまたがっていることを確認した。
2つの LLM モデル (n = 3,666 対のスコア) にまたがって、ピアソン r = 0.76 とクリッペンドルフ α = 0.71 となる。
4つの代替フレーミングにおけるプロンプト感度分析は、タスクレベルランキングが堅牢であることを示している。
明らかに関連する機器変数(ORIV)推定は、古典的な測定誤差の減衰と一致して、OLSよりも25%大きい係数を回復する。
この方法論は労働経済学を超えて、意味的内容が大規模に定量化されなければならない領域に一般化する。
関連論文リスト
- DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - Same Meaning, Different Scores: Lexical and Syntactic Sensitivity in LLM Evaluation [40.210132040677]
本稿では,23の現代大言語モデル(LLM)の絶対的性能と相対的ランク付けが,制御的,真に等価な語彙的および構文的摂動に与える影響について検討する。
その結果、語彙的摂動は、ほぼすべてのモデルやタスクに対して、実質的、統計的に有意な性能劣化を誘導する一方、構文的摂動はより異質な効果を持ち、時には結果を改善することが示されている。
論文 参考訳(メタデータ) (2026-02-19T12:24:42Z) - Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation [0.0]
本研究は16種類の教科モデルを対象とした4つの音読ツールについて検討した。
シングルパス法は、ベンチマークしたサブセットで優れた性能を保った。
主な発見は、数学的推論能力は、消音介入に対して最も敏感であることを示している。
論文 参考訳(メタデータ) (2025-12-15T18:48:42Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models [3.0569643495382173]
The Provider Summarization Quality Instrument (PDSQI-9) was developed to evaluate LLM- generated clinical summaries。
検証には、実体的妥当性のためのピアソン相関、因子分析、構造的妥当性のためのクロンバッハのαが含まれていた。
PDSQI-9は強い内部整合性と信頼性を示した。
論文 参考訳(メタデータ) (2025-01-15T17:47:57Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。