論文の概要: Learning from Convenience Samples: A Case Study on Fine-Tuning LLMs for Survey Non-response in the German Longitudinal Election Study
- arxiv url: http://arxiv.org/abs/2509.25063v1
- Date: Mon, 29 Sep 2025 17:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.152995
- Title: Learning from Convenience Samples: A Case Study on Fine-Tuning LLMs for Survey Non-response in the German Longitudinal Election Study
- Title(参考訳): 便宜試料から学ぶ:ドイツ縦断選挙調査における非応答調査のための微調整LDMの事例研究
- Authors: Tobias Holtdirk, Dennis Assenmacher, Arnim Bleier, Claudia Wagner,
- Abstract要約: ランダムな非応答と体系的な非応答の両方で自己申告された投票選択をインプットするために、大きな言語モデルを微調整する。
LLMは、ゼロショットよりも正確に個人レベルの予測と人口レベルの分布を復元することができる。
このことは、微調整のLSMが、非確率的なサンプルや体系的な欠陥を扱う研究者に有望な戦略を提供することを示唆している。
- 参考スコア(独自算出の注目度): 0.6104510780984732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Survey researchers face two key challenges: the rising costs of probability samples and missing data (e.g., non-response or attrition), which can undermine inference and increase the use of convenience samples. Recent work explores using large language models (LLMs) to simulate respondents via persona-based prompts, often without labeled data. We study a more practical setting where partial survey responses exist: we fine-tune LLMs on available data to impute self-reported vote choice under both random and systematic nonresponse, using the German Longitudinal Election Study. We compare zero-shot prompting and supervised fine-tuning against tabular classifiers (e.g., CatBoost) and test how different convenience samples (e.g., students) used for fine-tuning affect generalization. Our results show that when data are missing completely at random, fine-tuned LLMs match tabular classifiers but outperform zero-shot approaches. When only biased convenience samples are available, fine-tuning small (3B to 8B) open-source LLMs can recover both individual-level predictions and population-level distributions more accurately than zero-shot and often better than tabular methods. This suggests fine-tuned LLMs offer a promising strategy for researchers working with non-probability samples or systematic missingness, and may enable new survey designs requiring only easily accessible subpopulations.
- Abstract(参考訳): 調査研究者は、2つの主要な課題に直面している: 確率サンプルの上昇コストと欠落したデータ(例えば、非応答またはトリクション)は、推論を弱め、利便性サンプルの使用を増加させる。
最近の研究は、大きな言語モデル(LLM)を用いて、しばしばラベル付きデータなしで、ペルソナベースのプロンプトを通じて回答者をシミュレートしている。
我々は、ドイツ縦断選挙研究(英語版)を用いて、無作為かつ体系的な非応答の下で自己申告投票選択を指示するために、利用可能なデータに基づいてLLMを微調整する。
ゼロショットプロンプトと教師付き微調整を表型分類器(例, CatBoost)と比較し, 微調整に用いる利便性サンプル(例, 学生)が一般化にどう影響するかを検証した。
実験の結果,データを完全にランダムに欠落した場合,微調整されたLLMは表型分類器に適合するが,ゼロショット法より優れていることがわかった。
バイアスのある利便性サンプルのみが利用可能である場合、微調整の小さな(3Bから8B)オープンソースのLCMは、ゼロショットよりも正確に個人レベルの予測と人口レベルの分布の両方を復元することができる。
このことは、微調整のLSMは、非確率的なサンプルや体系的な欠如を扱う研究者にとって有望な戦略であり、容易にアクセス可能なサブポピュレーションのみを必要とする新しい調査設計を可能にする可能性があることを示唆している。
関連論文リスト
- Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Adaptive political surveys and GPT-4: Tackling the cold start problem with simulated user interactions [5.902306366006418]
適応質問票は, アンケート参加者に対して, 前の回答に基づいて, 次の質問を動的に選択する。
デジタル化により、これらは政治科学などの応用分野における伝統的な調査の代替となる。
1つの制限は、質問の選択のためにモデルをトレーニングするデータへの依存である。
適応型政治調査の統計モデルを事前学習するために,合成データが利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-12T12:02:36Z) - Can Large Language Models Simulate Human Responses? A Case Study of Stated Preference Experiments in the Context of Heating-related Choices [2.2582258282563763]
ステートド・リセプション(SP)調査は、個人が仮説的、そして未来的シナリオでトレードオフを行う方法を研究するための重要な方法である。
高価で時間を要する傾向があり、応答性疲労や倫理的制約の影響を受けやすい。
本研究では,エネルギー関連調査における消費者選択をシミュレートするための大規模言語モデル (LLM) の利用について検討した。
論文 参考訳(メタデータ) (2025-03-07T10:37:31Z) - Language Model Fine-Tuning on Scaled Survey Data for Predicting Distributions of Public Opinions [4.020002996724124]
大規模言語モデル(LLM)は、調査設計の初期段階において、事前に調査応答を予測する。
本研究では, 調査データの特異な構造特性を利用して, 応答分布を推定するために, 直接微調整LLMを提案する。
本研究では,SubPOPの微調整により,様々なサブポピュレーションにおけるLLM予測と人間の反応の一致が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2025-02-24T00:31:33Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification [6.273933281069326]
生成型大規模言語モデル(LLM)は、データ拡張タスクにますます使われています。
数ショットの学習文献に存在するサンプル選択戦略を比較し,LLMに基づくテキスト拡張におけるそれらの効果について検討する。
結果から,一部の情報化戦略ではモデルの性能が向上する一方,限界性能が向上してもほとんど発生しないことがわかった。
論文 参考訳(メタデータ) (2024-10-14T17:30:08Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Learning with Noisy Labels over Imbalanced Subpopulations [13.477553187049462]
ノイズラベル(LNL)による学習は,研究コミュニティから大きな注目を集めている。
ノイズラベルと不均衡なサブポピュレーションを同時に扱う新しいLNL法を提案する。
試料のクリーンな確率を推定するために, 試料相関を考慮に入れた特徴量測定手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T07:25:24Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。