論文の概要: Human-AI Collaboration for Estimating Scientific Replicability
- arxiv url: http://arxiv.org/abs/2605.27394v1
- Date: Sun, 19 Apr 2026 14:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.524951
- Title: Human-AI Collaboration for Estimating Scientific Replicability
- Title(参考訳): 科学的再現性評価のための人間とAIのコラボレーション
- Authors: Tatiana Chakravorti, Robert Fraleigh, Timothy Fritton, Christopher Griffin, Vaibhav Singh, Sai Koneru, C. Lee Giles, David Pennock, Anthony Kwasnica, Sarah Rajtmajer,
- Abstract要約: アルゴリズムエージェントが人間と取引するハイブリッド予測市場を導入する。
エージェントは何百もの先行複製研究の結果に基づいて訓練され、一方で人間の参加者はドメイン知識を貢献する。
我々の結果は、いくつかのケースを除いて、ハイブリッド市場は、人工予測市場と一致するか、または優れています。
- 参考スコア(独自算出の注目度): 9.157610685256163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining whether published scientific findings can successfully be replicated is a long-standing challenge in the empirical sciences. Existing approaches for replicability assessment typically rely either on human judgment, i.e., creative assembly of human experts, or on machine learning models trained on paper content metadata. While both approaches have demonstrated value, each also has important limitations. Human forecasts can be influenced by cognitive biases and narrow exposure to the research literature, while automated assessments often struggle to capture contextual cues and subtle signals of credibility. In this paper, we examine a hybrid approach. Specifically, we introduce a hybrid prediction market in which algorithmic agents trade alongside human participants to jointly estimate the likelihood that a published scientific finding will be corroborated via the outcome of a controlled replication study. Agents are trained on outcomes from hundreds of prior replication studies while human participants contribute domain knowledge through real-time trading. We evaluate this hybrid approach through multiple live experiments involving participants from different academic disciplines and compare its performance to artificial-only and human-only baselines. Our results show that, except for a few cases, hybrid markets match or outperform artificial prediction markets, producing more accurate and reliable replication forecasts.
- Abstract(参考訳): 公開された科学的発見がうまく複製できるかどうかを決定することは、経験科学における長年の課題である。
既存の再現性評価のアプローチは、人間の判断、すなわち人間の専門家の創造的な組み立て、あるいは紙コンテンツメタデータに基づいて訓練された機械学習モデルに依存するのが一般的である。
どちらのアプローチも価値を示していますが、それぞれに重要な制限があります。
人間の予測は認知バイアスや研究文献への狭い露出に影響されうるが、自動化された評価は文脈的な手がかりと微妙な信頼性のシグナルを捉えるのにしばしば苦労する。
本稿では,ハイブリッドアプローチについて検討する。
具体的には、アルゴリズムエージェントが人間の参加者と取引して、公開されている科学的発見が、制御された複製研究の結果によって共謀される可能性を共同で推定する、ハイブリッドな予測市場を導入する。
エージェントは何百もの先行複製研究の結果に基づいて訓練され、一方で人間の参加者はリアルタイム取引を通じてドメイン知識を貢献する。
我々は,このハイブリッドアプローチを,異なる学問分野の参加者による複数の実生実験を通じて評価し,その性能を人工的・人為的ベースラインと比較した。
以上の結果から, ハイブリッド市場は, 数例を除いて, 人工予測市場と一致し, 精度が高く, 信頼性の高い再現予測が得られた。
関連論文リスト
- This human study did not involve human subjects: Validating LLM simulations as behavioral evidence [15.56427716190418]
ヒューリスティックなアプローチは、シミュレーションされた観察された人間の行動が交換可能であることを確立する。
統計的キャリブレーションは、観察された反応とシミュレーションされた反応の相違を説明するために、補助的な人間のデータと統計的調整を組み合わせる。
論文 参考訳(メタデータ) (2026-02-17T18:18:38Z) - The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Large language models replicate and predict human cooperation across experiments in game theory [0.8166364251367626]
大きな言語モデルが実際の人間の意思決定をいかに反映しているかは、いまだに理解されていない。
我々は,ゲーム理論実験のディジタルツインを開発し,機械行動評価のためのシステマティック・プロンプトと探索の枠組みを導入する。
Llamaは人間の協調パターンを高い忠実度で再現し、合理的選択理論から人間の偏差を捉える。
論文 参考訳(メタデータ) (2025-11-06T16:21:27Z) - Operationalizing Serendipity: Multi-Agent AI Workflows for Enhanced Materials Characterization with Theory-in-the-Loop [0.0]
SciLinkは、材料研究におけるセレンディピティーを運用するために設計された、オープンソースのマルチエージェント人工知能フレームワークである。
実験観察、新規性評価、理論シミュレーションの直接的な自動リンクを生成する。
本稿では,原子分解能およびハイパースペクトルデータへの応用,リアルタイムな人間専門家指導の統合能力,研究ループを閉じる能力について述べる。
論文 参考訳(メタデータ) (2025-08-07T04:59:17Z) - Using Large Language Models to Create AI Personas for Replication, Generalization and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)が,マーケティングにおけるメッセージ効果に関する論文の正確な複製と一般化を高速化する可能性について分析する。
LLMはJournal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を複製して試験された。
LLMレプリケーションは、元のメインエフェクトの76%(111点中84点)の再現に成功した。
論文 参考訳(メタデータ) (2024-08-28T18:14:39Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。