論文の概要: Identifying Non-Replicable Social Science Studies with Language Models
- arxiv url: http://arxiv.org/abs/2503.10671v1
- Date: Mon, 10 Mar 2025 11:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:05.239387
- Title: Identifying Non-Replicable Social Science Studies with Language Models
- Title(参考訳): 言語モデルを用いた非複製型社会科学研究の同定
- Authors: Denitsa Saynova, Kajsa Hansson, Bastiaan Bruinsma, Annika Fredén, Moa Johansson,
- Abstract要約: オープンソース (Llama 3 8B, Qwen 2 7B, Mistral 7B) とプロプライエタリ (GPT-4o) 命令調整 LLM の複製可能と非複製可能の区別能力について検討した。
LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License:
- Abstract: In this study, we investigate whether LLMs can be used to indicate if a study in the behavioural social sciences is replicable. Using a dataset of 14 previously replicated studies (9 successful, 5 unsuccessful), we evaluate the ability of both open-source (Llama 3 8B, Qwen 2 7B, Mistral 7B) and proprietary (GPT-4o) instruction-tuned LLMs to discriminate between replicable and non-replicable findings. We use LLMs to generate synthetic samples of responses from behavioural studies and estimate whether the measured effects support the original findings. When compared with human replication results for these studies, we achieve F1 values of up to $77\%$ with Mistral 7B, $67\%$ with GPT-4o and Llama 3 8B, and $55\%$ with Qwen 2 7B, suggesting their potential for this task. We also analyse how effect size calculations are affected by sampling temperature and find that low variance (due to temperature) leads to biased effect estimates.
- Abstract(参考訳): 本研究では,行動社会科学の研究が複製可能かどうかを LLM を用いて示す。
これまでに14の再現された研究(9つの成功、5つの失敗)のデータセットを用いて、オープンソース(Llama 3 8B, Qwen 2 7B, Mistral 7B)とプロプライエタリ(GPT-4o)の命令調整による再現性と非複製性の両方を識別する能力の評価を行った。
LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
これらの研究でヒトの複製結果と比較すると、Mistral 7Bで最大7,7\%、GPT-4oとLlama 3 8Bで6,7\%、Qwen 2 7Bで5,5\%のF1値が得られる。
また、サンプル温度による効果サイズ計算の影響も分析し、低分散(温度による)がバイアス効果推定に繋がることを示した。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference [3.0804372027733202]
我々は,GPT-4,Llama-2,Mistral 7bを用いて,スタンフォードNLIコーパスの一部を再現した。
我々は仮説のみの分類器を訓練し、LLMによる仮説がアノテーションのアーティファクトを含んでいるかどうかを判断する。
我々の分析は、NLIにおける十分に証明されたバイアスがLLM生成データに持続できるという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-11T17:09:22Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs [1.5031024722977635]
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。
GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
論文 参考訳(メタデータ) (2024-08-29T05:18:50Z) - Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)がメッセージ効果研究の正確な複製を高速化する可能性について分析する。
The Journal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を再現し,LSMを用いた参加者を試験した。
LLMの複製は、元のメインエフェクトの76%(111点中84点)を再現し、メディア刺激に反応する研究のAIによる複製の可能性を示した。
論文 参考訳(メタデータ) (2024-08-28T18:14:39Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。