論文の概要: Knowing Your Uncertainty -- On the application of LLM in social sciences
- arxiv url: http://arxiv.org/abs/2512.05461v1
- Date: Fri, 05 Dec 2025 06:36:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.920997
- Title: Knowing Your Uncertainty -- On the application of LLM in social sciences
- Title(参考訳): 不確かさを知る - LLMの社会科学への応用について-
- Authors: Bolun Zhang, Linzhuo Li, Yunqi Chen, Qinlin Zhao, Zihan Zhu, Xiaoyuan Yi, Xing Xie,
- Abstract要約: 大規模言語モデル(LLM)は、計算社会科学研究に急速に統合されている。
本稿では, LLMを社会科学的タスクに適用するには, 不確実性を明確に評価する必要があると論じる。
- 参考スコア(独自算出の注目度): 37.703249716862054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are rapidly being integrated into computational social science research, yet their blackboxed training and designed stochastic elements in inference pose unique challenges for scientific inquiry. This article argues that applying LLMs to social scientific tasks requires explicit assessment of uncertainty-an expectation long established in both quantitative methodology in the social sciences and machine learning. We introduce a unified framework for evaluating LLM uncertainty along two dimensions: the task type (T), which distinguishes between classification, short-form, and long-form generation, and the validation type (V), which captures the availability of reference data or evaluative criteria. Drawing from both computer science and social science literature, we map existing uncertainty quantification (UQ) methods to this T-V typology and offer practical recommendations for researchers. Our framework provides both a methodological safeguard and a practical guide for integrating LLMs into rigorous social science research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、計算社会科学の研究に急速に統合されているが、そのブラックボックス化された訓練と推論における確率的要素は、科学的な探求にユニークな課題をもたらす。
本稿では, LLMを社会科学の課題に適用するには, 社会科学と機械学習の両方において, 長い間確立されてきた不確実性の予測を明確に評価する必要があることを論じる。
分類,ショートフォーム,ロングフォームの生成を区別するタスクタイプ(T)と,参照データや評価基準の取得を行う検証タイプ(V)の2つの次元に沿ってLCMの不確実性を評価するための統一的なフレームワークを導入する。
計算機科学と社会科学の両方の文献から、既存の不確実量化法(UQ)をこのT-V型にマッピングし、研究者に実用的な勧告を提供する。
本フレームワークは, LLMを厳格な社会科学研究に統合するための方法論的保護と実践的ガイドの両方を提供する。
関連論文リスト
- Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - Chain of Methodologies: Scaling Test Time Computation without Training [77.85633949575046]
大規模言語モデル(LLM)は、トレーニングデータに対する詳細な洞察が不十分なため、複雑な推論タスクに苦しむことが多い。
本稿では,人間の方法論的洞察を統合することで構造的思考を強化するCoM(Chain of the CoM)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-06-08T03:46:50Z) - Navigating the Risks of Using Large Language Models for Text Annotation in Social Science Research [3.276333240221372]
大規模言語モデル(LLM)は、計算社会科学に革命をもたらす可能性がある。
テキスト分類タスクにLLMを使用する際の約束とリスクを体系的に評価する。
論文 参考訳(メタデータ) (2025-03-27T23:33:36Z) - Intelligent Computing Social Modeling and Methodological Innovations in Political Science in the Era of Large Language Models [18.364402500460248]
近年の人工知能の波は、大規模言語モデル(LLM)に代表されるものであり、政治科学における方法論的革新の機会と課題を提示している。
本稿では,これらの問題に対処するために,知能コンピューティング社会モデリング(ICSM)手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T06:30:59Z) - Systematic Task Exploration with LLMs: A Study in Citation Text Generation [63.50597360948099]
大規模言語モデル(LLM)は、複雑な創造的自然言語生成(NLG)タスクの定義と実行において、前例のない柔軟性をもたらす。
本稿では,系統的な入力操作,参照データ,出力測定からなる3成分研究フレームワークを提案する。
我々はこのフレームワークを用いて引用テキスト生成を探索する。これは一般的なNLPタスクであり、タスク定義と評価基準に関するコンセンサスを欠いている。
論文 参考訳(メタデータ) (2024-07-04T16:41:08Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [47.632123167141245]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実の文脈と人間の要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。