論文の概要: Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research
- arxiv url: http://arxiv.org/abs/2509.26080v1
- Date: Tue, 30 Sep 2025 10:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.511873
- Title: Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research
- Title(参考訳): 社会科学研究におけるソーシャルエージェントとしての大規模言語モデルの評価
- Authors: Emma Rose Madden,
- Abstract要約: 大規模言語モデル(LLM)は、社会科学における合成エージェントとしてますます使われてきている。
本稿では,LLM出力の解釈において考慮すべき注意点について概説する。
実用的なガードレールを導入し、研究者はカテゴリエラーを避けながら、有用なプロトタイピングや予測を行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being increasingly used as synthetic agents in social science, in applications ranging from augmenting survey responses to powering multi-agent simulations. Because strong prediction plus conditioning prompts, token log-probs, and repeated sampling mimic Bayesian workflows, their outputs can be misinterpreted as posterior-like evidence from a coherent model. However, prediction does not equate to probabilism, and accurate points do not imply calibrated uncertainty. This paper outlines cautions that should be taken when interpreting LLM outputs and proposes a pragmatic reframing for the social sciences in which LLMs are used as high-capacity pattern matchers for quasi-predictive interpolation under explicit scope conditions and not as substitutes for probabilistic inference. Practical guardrails such as independent draws, preregistered human baselines, reliability-aware validation, and subgroup calibration, are introduced so that researchers may engage in useful prototyping and forecasting while avoiding category errors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、調査回答の増強からマルチエージェントシミュレーションのパワーアップに至るまで、社会科学における合成エージェントとしての利用が増えている。
強い予測と条件付けのプロンプト、トークンログプロブ、反復サンプリングはベイズ的ワークフローを模倣するので、それらの出力はコヒーレントモデルから後続的な証拠として解釈される。
しかし、予測は確率論とは一致せず、正確な点は不確実性を校正するものではない。
本稿では, LLM出力の解釈において考慮すべき注意点を概説し, 確率的推論の代用ではなく, 半予測的補間のための高容量パターンマーカとしてLLMが使用される社会科学の実践的リフレーミングを提案する。
独立系ドロー、事前登録された人体ベースライン、信頼性に配慮した検証、サブグループ校正などの実践的なガードレールを導入し、研究者がカテゴリーエラーを避けながら有用なプロトタイピングや予測を行うことができるようにした。
関連論文リスト
- Uncertainty-Guided Expert-AI Collaboration for Efficient Soil Horizon Annotation [0.13999481573773068]
土壌プロファイルを記述するためのマルチモーダルマルチタスクモデルである$textitSoilNet$に共形予測を適用する。
我々は,モデルの不確実性が高い場合に,基本真理アノテーションを得るための限られた予算が利用できる,シミュレーションされたHILアノテーションパイプラインを設計する。
実験により、SoilNetの適合性は回帰タスクにおけるより効率的なアノテーションと分類タスクにおける同等のパフォーマンススコアをもたらすことが示された。
論文 参考訳(メタデータ) (2025-09-29T14:54:23Z) - Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Locally Adaptive Conformal Inference for Operator Models [5.78532405664684]
演算子モデルに対して関数値の局所適応予測セットを生成するための分散フリーフレームワークであるLocal Sliced Conformal Inference (LSCI)を紹介する。
我々は有限サンプルの有効性を証明し、局所交換性の下でのカバレッジギャップにデータ依存の上限を導出する。
偏りのある予測や分布外雑音に対する空間を実証的に実証する。
論文 参考訳(メタデータ) (2025-07-28T16:37:56Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Transforming Autoregression: Interpretable and Expressive Time Series
Forecast [0.0]
本稿では,様々な研究方向からインスパイアされたモデルクラスである自己回帰変換モデル(ATM)を提案する。
ATMは半パラメトリック分布仮定と解釈可能なモデル仕様を用いて表現的分布予測を統一する。
ATMの理論的および実証的な評価により,複数のシミュレーションおよび実世界の予測データセット上でATMの特性を実証する。
論文 参考訳(メタデータ) (2021-10-15T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。