論文の概要: Identifying Non-Replicable Social Science Studies with Language Models
- arxiv url: http://arxiv.org/abs/2503.10671v1
- Date: Mon, 10 Mar 2025 11:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:28.934363
- Title: Identifying Non-Replicable Social Science Studies with Language Models
- Title(参考訳): 言語モデルを用いた非複製型社会科学研究の同定
- Authors: Denitsa Saynova, Kajsa Hansson, Bastiaan Bruinsma, Annika Fredén, Moa Johansson,
- Abstract要約: オープンソース (Llama 3 8B, Qwen 2 7B, Mistral 7B) とプロプライエタリ (GPT-4o) 命令調整 LLM の複製可能と非複製可能の区別能力について検討した。
LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
- 参考スコア(独自算出の注目度): 2.621434923709917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we investigate whether LLMs can be used to indicate if a study in the behavioural social sciences is replicable. Using a dataset of 14 previously replicated studies (9 successful, 5 unsuccessful), we evaluate the ability of both open-source (Llama 3 8B, Qwen 2 7B, Mistral 7B) and proprietary (GPT-4o) instruction-tuned LLMs to discriminate between replicable and non-replicable findings. We use LLMs to generate synthetic samples of responses from behavioural studies and estimate whether the measured effects support the original findings. When compared with human replication results for these studies, we achieve F1 values of up to $77\%$ with Mistral 7B, $67\%$ with GPT-4o and Llama 3 8B, and $55\%$ with Qwen 2 7B, suggesting their potential for this task. We also analyse how effect size calculations are affected by sampling temperature and find that low variance (due to temperature) leads to biased effect estimates.
- Abstract(参考訳): 本研究では,行動社会科学の研究が複製可能かどうかを LLM を用いて示す。
これまでに14の再現された研究(9つの成功、5つの失敗)のデータセットを用いて、オープンソース(Llama 3 8B, Qwen 2 7B, Mistral 7B)とプロプライエタリ(GPT-4o)の命令調整による再現性と非複製性の両方を識別する能力の評価を行った。
LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
これらの研究でヒトの複製結果と比較すると、Mistral 7Bで最大7,7\%、GPT-4oとLlama 3 8Bで6,7\%、Qwen 2 7Bで5,5\%のF1値が得られる。
また、サンプル温度による効果サイズ計算の影響も分析し、低分散(温度による)がバイアス効果推定に繋がることを示した。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Highlighting Case Studies in LLM Literature Review of Interdisciplinary System Science [0.18416014644193066]
大型言語モデル(LLM)は、4人のコモンウェルス科学産業研究機関(CSIRO)研究者を支援するために使用された。
系統的な文献レビューのためのLLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-03-16T05:52:18Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Hypothesis-only Biases in Large Language Model-Elicited Natural Language Inference [3.0804372027733202]
我々は,GPT-4,Llama-2,Mistral 7bを用いて,スタンフォードNLIコーパスの一部を再現した。
我々は仮説のみの分類器を訓練し、LLMによる仮説がアノテーションのアーティファクトを含んでいるかどうかを判断する。
我々の分析は、NLIにおける十分に証明されたバイアスがLLM生成データに持続できるという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-10-11T17:09:22Z) - Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation [51.127054971591924]
本稿では,生成サンプル数を適応的に削減する新たな自己評価手法を提案する。
平均1.2サンプルだけで16サンプルの使用による改善の74%が達成できることを実証した。
論文 参考訳(メタデータ) (2024-10-03T17:47:29Z) - Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs [1.5031024722977635]
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。
GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
論文 参考訳(メタデータ) (2024-08-29T05:18:50Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。
価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Mastering the Task of Open Information Extraction with Large Language
Models and Consistent Reasoning Environment [52.592199835286394]
オープン情報抽出(OIE)は、自然文から客観的な構造化された知識を抽出することを目的としている。
大規模言語モデル(LLM)は、テキスト内学習能力に優れています。
論文 参考訳(メタデータ) (2023-10-16T17:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。