論文の概要: Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research
- arxiv url: http://arxiv.org/abs/2509.26080v2
- Date: Tue, 28 Oct 2025 13:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 20:04:43.773566
- Title: Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research
- Title(参考訳): 社会科学研究におけるソーシャルエージェントとしての大規模言語モデルの評価
- Authors: Emma Rose Madden,
- Abstract要約: 大規模言語モデル(LLM)は、社会科学における合成エージェントとしてますます使われてきている。
本稿では,アウトプットの解釈において考慮すべき注意点を概説し,実用的なリフレーミングを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are being increasingly used as synthetic agents in social science, in applications ranging from augmenting survey responses to powering multi-agent simulations. This paper outlines cautions that should be taken when interpreting LLM outputs and proposes a pragmatic reframing for the social sciences in which LLMs are used as high-capacity pattern matchers for quasi-predictive interpolation under explicit scope conditions and not as substitutes for probabilistic inference. Practical guardrails such as independent draws, preregistered human baselines, reliability-aware validation, and subgroup calibration, are introduced so that researchers may engage in useful prototyping and forecasting while avoiding category errors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、調査回答の増強からマルチエージェントシミュレーションのパワーアップに至るまで、社会科学における合成エージェントとしての利用が増えている。
本稿では, LLMの出力を解釈する際に考慮すべき注意点を概説し, 確率的推論の代用ではなく, 半予測的補間のための高容量パターンマーカとしてLLMが使用される社会科学の実践的リフレーミングを提案する。
独立系ドロー、事前登録された人体ベースライン、信頼性に配慮した検証、サブグループ校正などの実践的なガードレールを導入し、研究者がカテゴリーエラーを避けながら有用なプロトタイピングや予測を行うことができるようにした。
関連論文リスト
- Leveraging LLM-based agents for social science research: insights from citation network simulations [132.4334196445918]
CiteAgentフレームワークを導入し、人間-行動シミュレーションに基づく引用ネットワークを生成する。
CiteAgentは、実世界の引用ネットワークにおける主要な現象を捉えている。
社会科学において2つのLCMに基づく研究パラダイムを確立し,既存の理論の検証と挑戦を可能にした。
論文 参考訳(メタデータ) (2025-11-05T08:47:04Z) - Uncertainty-Guided Expert-AI Collaboration for Efficient Soil Horizon Annotation [0.13999481573773068]
土壌プロファイルを記述するためのマルチモーダルマルチタスクモデルである$textitSoilNet$に共形予測を適用する。
我々は,モデルの不確実性が高い場合に,基本真理アノテーションを得るための限られた予算が利用できる,シミュレーションされたHILアノテーションパイプラインを設計する。
実験により、SoilNetの適合性は回帰タスクにおけるより効率的なアノテーションと分類タスクにおける同等のパフォーマンススコアをもたらすことが示された。
論文 参考訳(メタデータ) (2025-09-29T14:54:23Z) - Population-Aligned Persona Generation for LLM-based Social Simulation [58.84363795421489]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Locally Adaptive Conformal Inference for Operator Models [5.78532405664684]
演算子モデルに対して関数値の局所適応予測セットを生成するための分散フリーフレームワークであるLocal Sliced Conformal Inference (LSCI)を紹介する。
我々は有限サンプルの有効性を証明し、局所交換性の下でのカバレッジギャップにデータ依存の上限を導出する。
偏りのある予測や分布外雑音に対する空間を実証的に実証する。
論文 参考訳(メタデータ) (2025-07-28T16:37:56Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Integrating LLM in Agent-Based Social Simulation: Opportunities and Challenges [0.7739037410679168]
本稿では,人間の認知の重要な側面を再現する大規模言語モデルの能力に関する最近の知見をレビューする。
第2部はマルチエージェント・シミュレーション・フレームワークにおけるLLMの新しい応用について調査している。
この論文は、従来のエージェントベースモデリングプラットフォームにLLMを統合するハイブリッドアプローチを提唱することで締めくくっている。
論文 参考訳(メタデータ) (2025-07-25T15:15:35Z) - Simple Yet Effective: An Information-Theoretic Approach to Multi-LLM Uncertainty Quantification [9.397157329808254]
MUSEは、大規模言語モデルのよく校正されたサブセットを特定し、集約するための単純な情報理論手法である。
二分予測タスクの実験では、単一モデルとナイーブアンサンブルベースラインと比較してキャリブレーションと予測性能が改善された。
論文 参考訳(メタデータ) (2025-07-09T19:13:25Z) - LLM-Based Social Simulations Require a Boundary [3.351170542925928]
大規模言語モデル(LLM)に基づく社会シミュレーションは明確な境界を確立するべきである。
本稿では、アライメント(実世界のパターンにマッチするシミュレーション行動)、一貫性(時間とともに一貫性のあるエージェント動作を維持する)、堅牢性という3つの重要な境界問題について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:14:47Z) - Mitigating Spurious Correlations in LLMs via Causality-Aware Post-Training [57.03005244917803]
大規模言語モデル (LLMs) は、事前学習中に得られた素早い相関関係により、アウト・オブ・ディストリビューション (OOD) のサンプルで失敗することが多い。
ここでは、因果認識後学習(CAPT)を通して、このような素因的相関を緩和することを目的とする。
公式因果推論ベンチマークCLadderと論理推論データセットPrOntoQAの実験により、CAPTで微調整された3Bスケールの言語モデルでは、従来のSFTおよびより大きなLLMを分散処理(ID)およびOODタスクで上回る結果が得られた。
論文 参考訳(メタデータ) (2025-06-11T06:30:28Z) - GenSim: A General Social Simulation Platform with Large Language Model based Agents [111.00666003559324]
我々はtextitGenSim と呼ばれる新しい大規模言語モデル (LLM) ベースのシミュレーションプラットフォームを提案する。
我々のプラットフォームは10万のエージェントをサポートし、現実世界のコンテキストで大規模人口をシミュレートする。
我々の知る限り、GenSimは汎用的で大規模で修正可能な社会シミュレーションプラットフォームに向けた最初の一歩である。
論文 参考訳(メタデータ) (2024-10-06T05:02:23Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - E-Bench: Towards Evaluating the Ease-of-Use of Large Language Models [29.763745375790933]
大規模言語モデル(LLM)はプロンプトに敏感であり、別の同義語表現やタイプミスはモデルに対して予期せぬ結果をもたらす可能性がある。
我々は,LLMの使いやすさを評価し,実際の使用状況をシミュレートしたE-Benchを構築した。
論文 参考訳(メタデータ) (2024-06-16T14:08:30Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal [49.24054920683246]
大規模言語モデル(LLM)は、連続学習中に破滅的な忘れ込みに悩まされる。
自己合成リハーサル(Self-Synthesized Rehearsal, SSR)と呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-02T16:11:23Z) - Computational Experiments Meet Large Language Model Based Agents: A
Survey and Perspective [16.08517740276261]
計算実験は複雑なシステムを研究するための貴重な方法として登場した。
エージェントベースモデリング(ABM)における実際の社会システムを正確に表現することは、人間の多様性と複雑な特性のために困難である。
大規模言語モデル(LLM)の統合が提案され、エージェントが人為的な能力を持つことができる。
論文 参考訳(メタデータ) (2024-02-01T01:17:46Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Transforming Autoregression: Interpretable and Expressive Time Series
Forecast [0.0]
本稿では,様々な研究方向からインスパイアされたモデルクラスである自己回帰変換モデル(ATM)を提案する。
ATMは半パラメトリック分布仮定と解釈可能なモデル仕様を用いて表現的分布予測を統一する。
ATMの理論的および実証的な評価により,複数のシミュレーションおよび実世界の予測データセット上でATMの特性を実証する。
論文 参考訳(メタデータ) (2021-10-15T17:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。