論文の概要: Variance-Aware LLM Annotation for Strategy Research: Sources, Diagnostics, and a Protocol for Reliable Measurement
- arxiv url: http://arxiv.org/abs/2601.02370v3
- Date: Mon, 19 Jan 2026 11:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.494652
- Title: Variance-Aware LLM Annotation for Strategy Research: Sources, Diagnostics, and a Protocol for Reliable Measurement
- Title(参考訳): 戦略研究のための変数対応LDMアノテーション:情報源,診断,信頼性測定のためのプロトコル
- Authors: Arnaldo Camuffo, Alfonso Gambardella, Saeid Kazemi, Jakub Malachowski, Abhinav Pandey,
- Abstract要約: 大規模言語モデル(LLM)は、戦略研究者が大規模にテキストを注釈付けするための強力なツールを提供する。
しかし、LCM生成ラベルを決定論的見落としとして扱うことは、かなり不安定である。
我々は,構成仕様,インターフェース効果,モデル嗜好,出力抽出,システムレベルの集約という,5つのばらつき源を診断する。
- 参考スコア(独自算出の注目度): 0.3228822469249803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) offer strategy researchers powerful tools for annotating text at scale, but treating LLM-generated labels as deterministic overlooks substantial instability. Grounded in content analysis and generalizability theory, we diagnose five variance sources: construct specification, interface effects, model preferences, output extraction, and system-level aggregation. Empirical demonstrations show that minor design choices-prompt phrasing, model selection-can shift outcomes by 12-85 percentage points. Such variance threatens not only reproducibility but econometric identification: annotation errors correlated with covariates bias parameter estimates regardless of average accuracy. We develop a variance-aware protocol specifying sampling budgets, aggregation rules, and reporting standards, and delineate scope conditions where LLM annotation should not be used. These contributions transform LLM-based annotation from ad hoc practice into auditable measurement infrastructure.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストを大規模にアノテートするための戦略研究者の強力なツールを提供するが、LCM生成ラベルを決定論的見落としとして扱うことは、かなり不安定である。
コンテント分析と一般化可能性理論に基づいて, 構成仕様, インターフェース効果, モデル嗜好, 出力抽出, システムレベルのアグリゲーションの5つの分散源を診断する。
実証実験では、小さな設計上の選択、急激な表現、モデル選択によるシフトの結果が12-85ポイント向上した。
このようなばらつきは再現性だけでなく、計量的同定を脅かす: 平均精度に関わらず、バイアスパラメータの推定値と相関するアノテーション誤差。
我々は,サンプル予算,集計規則,報告基準を規定する分散対応プロトコルを開発し,LCMアノテーションを使用すべきでないスコープ条件を規定する。
これらの貢献により、LCMベースのアノテーションはアドホックな実践から監査可能な測定インフラへと変換される。
関連論文リスト
- Enhancing LLM-Based Data Annotation with Error Decomposition [6.6544828402388445]
大規模言語モデルは、データアノテーションタスクのための人間のコーディングに代わるスケーラブルな代替手段を提供する。
主観的アノテーションタスクのパフォーマンスは、一貫性が低く、エラーを起こしやすい。
モデル駆動不正確性からタスク独立性の曖昧さを分離するために,ヒューマン・イン・ザ・ループのステップを取り入れた診断評価パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-17T05:43:17Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Model-based causal feature selection for general response types [8.228587135343071]
Invariant causal prediction (ICP) は、不均一な設定からのデータを必要とする因果的特徴選択の手法である。
我々は変換モデル(TRAM)ベースのICPを開発し、連続的、分類的、カウント型、非形式的に検閲された応答を可能にする。
我々は、オープンソースのRパッケージ「tramicp」を提供し、シミュレーションデータに対する我々のアプローチを評価し、重篤な患者の生存の因果的特徴を調査する事例研究を行った。
論文 参考訳(メタデータ) (2023-09-22T12:42:48Z) - Meta-Causal Feature Learning for Out-of-Distribution Generalization [71.38239243414091]
本稿では,協調タスク生成モジュール (BTG) とメタ因果特徴学習モジュール (MCFL) を含む,バランス付きメタ因果学習器 (BMCL) を提案する。
BMCLは、分類のためのクラス不変の視覚領域を効果的に識別し、最先端の手法の性能を向上させるための一般的なフレームワークとして機能する。
論文 参考訳(メタデータ) (2022-08-22T09:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。