論文の概要: Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation
- arxiv url: http://arxiv.org/abs/2504.08954v3
- Date: Fri, 08 Aug 2025 20:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.255224
- Title: Should you use LLMs to simulate opinions? Quality checks for early-stage deliberation
- Title(参考訳): LLMを使って意見をシミュレートするべきか? 早期検討のための品質チェック
- Authors: Terrence Neumann, Maria De-Arteaga, Sina Fazelpour,
- Abstract要約: そこで我々は,LLMを模擬したQuality Controlアセスメントを提案する。
この評価は2つの重要なテストから成っている。
どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
- 参考スコア(独自算出の注目度): 5.4260854377259315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergent capabilities of large language models (LLMs) have prompted interest in using them as surrogates for human subjects in opinion surveys. However, prior evaluations of LLM-based opinion simulation have relied heavily on costly, domain-specific survey data, and mixed empirical results leave their reliability in question. To enable cost-effective, early-stage evaluation, we introduce a quality control assessment designed to test the viability of LLM-simulated opinions on Likert-scale tasks without requiring large-scale human data for validation. This assessment comprises two key tests: \emph{logical consistency} and \emph{alignment with stakeholder expectations}, offering a low-cost, domain-adaptable validation tool. We apply our quality control assessment to an opinion simulation task relevant to AI-assisted content moderation and fact-checking workflows -- a socially impactful use case -- and evaluate seven LLMs using a baseline prompt engineering method (backstory prompting), as well as fine-tuning and in-context learning variants. None of the models or methods pass the full assessment, revealing several failure modes. We conclude with a discussion of the risk management implications and release \texttt{TopicMisinfo}, a benchmark dataset with paired human and LLM annotations simulated by various models and approaches, to support future research.
- Abstract(参考訳): 大規模言語モデル(LLM)の創発的能力は、世論調査において、人的対象のサロゲートとして使用することへの関心を喚起している。
しかし、LLMに基づく意見シミュレーションの事前評価は、高価でドメイン固有の調査データに大きく依存しており、実験結果の混合は信頼性に疑問を呈している。
費用対効果の高い早期評価を実現するため,大規模な人的データを必要とすることなく,LLMを模擬した課題に対する意見の妥当性を検証できる品質管理アセスメントを導入する。
この評価には2つの重要なテストが含まれる: \emph{logical consistency} と \emph{alignment with stakeholder expectations} であり、低コストでドメイン適応型検証ツールを提供する。
我々は,AI支援コンテンツモデレーションとファクトチェックワークフロー(社会的に影響力のあるユースケース)に関連する意見シミュレーションタスクに品質管理評価を適用し,ベースライン・プロンプト・エンジニアリング・メソッド(バック・プロンプト・プロンプト)を用いて7つのLCMを評価した。
どのモデルやメソッドも完全な評価をパスせず、いくつかの障害モードを明らかにします。
我々は,リスク管理の意義と,将来の研究を支援するために,さまざまなモデルやアプローチでシミュレートされた人間とLLMアノテーションを組み合わせたベンチマークデータセットであるtexttt{TopicMisinfo} のリリースについて論じる。
関連論文リスト
- Evaluating Local and Cloud-Based Large Language Models for Simulating Consumer Choices in Energy Stated Preference Surveys [4.672157041593765]
本研究では、エネルギー関連SPサーベイにおける消費者選択をシミュレートする大規模言語モデルの能力について検討する。
その結果, LLMの平均精度は48%まで向上するが, 実用化には不十分であることが示唆された。
従来のSP選択が最も効果的な入力因子であるのに対して、因子の異なる長いプロンプトは精度を低下させる可能性がある。
論文 参考訳(メタデータ) (2025-03-07T10:37:31Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - LLM-based relevance assessment still can't replace human relevance assessment [12.829823535454505]
近年の研究では、情報検索における関連性評価のための大規模言語モデル(LLM)が、人間の判断に匹敵する評価をもたらすことが示唆されている。
Upadhyayらは、LLMに基づく関連性評価は、TRECスタイルの評価における従来の人間関連性評価を完全に置き換えることができると主張している。
本稿ではこの主張を批判的に検証し、この結論の妥当性を損なう実践的・理論的制約を強調した。
論文 参考訳(メタデータ) (2024-12-22T20:45:15Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。