論文の概要: Valid Survey Simulations with Limited Human Data: The Roles of Prompting, Fine-Tuning, and Rectification
- arxiv url: http://arxiv.org/abs/2510.11408v1
- Date: Mon, 13 Oct 2025 13:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.384242
- Title: Valid Survey Simulations with Limited Human Data: The Roles of Prompting, Fine-Tuning, and Rectification
- Title(参考訳): 限定された人的データを用いた妥当性調査シミュレーション:プロンプティング, 微調整, 整形化の役割
- Authors: Stefan Krsteski, Giuseppe Russo, Serina Chang, Robert West, Kristina Gligorić,
- Abstract要約: 本研究では,大規模言語モデルを用いて調査応答を生成する合成手法と,人口推定を損なう補正手法の相互作用について検討する。
その結果, 合成だけではかなりのバイアス(24~86%)が生じるのに対し, 改質と組み合わせることで5%未満のバイアスが減少し, 有効試料径が最大14%増加することがわかった。
- 参考スコア(独自算出の注目度): 12.462181498019051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surveys provide valuable insights into public opinion and behavior, but their execution is costly and slow. Large language models (LLMs) have been proposed as a scalable, low-cost substitute for human respondents, but their outputs are often biased and yield invalid estimates. We study the interplay between synthesis methods that use LLMs to generate survey responses and rectification methods that debias population estimates, and explore how human responses are best allocated between them. Using two panel surveys with questions on nutrition, politics, and economics, we find that synthesis alone introduces substantial bias (24-86%), whereas combining it with rectification reduces bias below 5% and increases effective sample size by up to 14%. Overall, we challenge the common practice of using all human responses for fine-tuning, showing that under a fixed budget, allocating most to rectification results in far more effective estimation.
- Abstract(参考訳): 調査は世論や行動に関する貴重な洞察を提供するが、その実行は高価で遅い。
大規模言語モデル (LLM) は、人間の回答者にとってスケーラブルで低コストな代替品として提案されているが、その出力はバイアスを受け、不適切な推定値が得られることが多い。
本研究では, LLMを用いて人口推定を逸脱する調査応答を生成する合成法と, それらの間におけるヒトの反応の最適配分について検討する。
栄養, 政治, 経済に関する2つのパネル調査から, 合成だけでかなりのバイアス(24~86%)が生じるのに対し, 改質と組み合わせることで5%未満のバイアスが減少し, 有効試料サイズが最大14%増加することがわかった。
全体として、我々は、すべての人間の反応を微調整に使用する一般的な慣行に挑戦し、固定予算の下では、ほとんどを修正に割り当てることで、より効果的な推定結果が得られることを示した。
関連論文リスト
- Prompts to Proxies: Emulating Human Preferences via a Compact LLM Ensemble [46.82793004650415]
大規模言語モデル(LLM)は、様々なタスクにまたがる人間のような応答をエミュレートする可能性を実証している。
本研究では,LLMをエージェントプロキシとして扱う新しいアライメントフレームワークを提案する。
我々は、構造化されたプロンプトエンジニアリング、エントロピーに基づくサンプリング、回帰に基づく選択を用いて、LLMエージェントを代表的行動パターンに向けて操るシステムであるP2Pを紹介する。
論文 参考訳(メタデータ) (2025-09-14T15:08:45Z) - Emulating Public Opinion: A Proof-of-Concept of AI-Generated Synthetic Survey Responses for the Chilean Case [0.0]
大規模言語モデル (LLMs) は、調査研究における方法論的および応用的な革新のための有望な道を提供する。
チリの世論確率論的調査から, LLM生成型人工サーベイ応答の信頼性を評価する。
論文 参考訳(メタデータ) (2025-09-11T21:43:59Z) - Accelerating Unbiased LLM Evaluation via Synthetic Feedback [17.597195550638343]
本稿では,人間のアノテーションへの依存を減らすために,人間と合成フィードバックを統合した統計的に原則化されたフレームワークを提案する。
実験では、市販の合成評価器で最大12.2%、微調整で最大24.8%のアノテーションを減らした。
論文 参考訳(メタデータ) (2025-02-14T21:27:09Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。