論文の概要: Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease
- arxiv url: http://arxiv.org/abs/2505.23852v1
- Date: Thu, 29 May 2025 01:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.570057
- Title: Large Language Model-Based Agents for Automated Research Reproducibility: An Exploratory Study in Alzheimer's Disease
- Title(参考訳): 研究自動化のための大規模言語モデルベースエージェント:アルツハイマー病における探索的研究
- Authors: Nic Dobbins, Christelle Xiong, Kristine Lan, Meliha Yetisgen,
- Abstract要約: 我々は、National Alzheimer's Coordinating Centerの“Quick Access”データセットを使用しました。
NACCデータを用いて,高度に引用された論文を同定した。
コードの記述と実行を担当するLLMベースの自律エージェントのシミュレーション研究チームを作成しました。
- 参考スコア(独自算出の注目度): 1.9938547353667109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To demonstrate the capabilities of Large Language Models (LLMs) as autonomous agents to reproduce findings of published research studies using the same or similar dataset. Materials and Methods: We used the "Quick Access" dataset of the National Alzheimer's Coordinating Center (NACC). We identified highly cited published research manuscripts using NACC data and selected five studies that appeared reproducible using this dataset alone. Using GPT-4o, we created a simulated research team of LLM-based autonomous agents tasked with writing and executing code to dynamically reproduce the findings of each study, given only study Abstracts, Methods sections, and data dictionary descriptions of the dataset. Results: We extracted 35 key findings described in the Abstracts across 5 Alzheimer's studies. On average, LLM agents approximately reproduced 53.2% of findings per study. Numeric values and range-based findings often differed between studies and agents. The agents also applied statistical methods or parameters that varied from the originals, though overall trends and significance were sometimes similar. Discussion: In some cases, LLM-based agents replicated research techniques and findings. In others, they failed due to implementation flaws or missing methodological detail. These discrepancies show the current limits of LLMs in fully automating reproducibility assessments. Still, this early investigation highlights the potential of structured agent-based systems to provide scalable evaluation of scientific rigor. Conclusion: This exploratory work illustrates both the promise and limitations of LLMs as autonomous agents for automating reproducibility in biomedical research.
- Abstract(参考訳): 目的: 大規模言語モデル(LLM)の自律的エージェントとしての能力を実証し, 同一または類似のデータセットを用いた論文の発見を再現する。
資料と方法:我々はNACC(National Alzheimer's Coordinating Center)の「Quick Access」データセットを使用しました。
NACCデータを用いて高引用の論文を同定し,本データセットのみを用いて再現可能な5つの研究を選定した。
GPT-4oを用いて,論文の要約,メソッドセクション,データセットのデータ辞書記述のみを考慮し,各研究の成果を動的に再現するコードの作成と実行を行うLLMベースの自律エージェントのシミュレーション研究チームを作成した。
結果: アルツハイマー5症例を対象に, 抄録に記載された35個の重要な所見を抽出した。
平均して、LSMの薬剤は研究1件あたり53.2%の発見を再現した。
数値値と範囲に基づく発見は、しばしば研究とエージェントによって異なる。
エージェントは元のものと異なる統計手法やパラメータも適用したが、全体的な傾向や重要性は時折類似していた。
議論: LLMをベースとしたエージェントが研究手法や発見を再現するケースもある。
実装上の欠陥や方法論的な詳細が欠けているために失敗したものもあります。
これらの相違は、再現性評価の完全自動化におけるLLMの現在の限界を示している。
しかし、この初期の調査は、科学的厳密さのスケーラブルな評価を提供するための構造化エージェントベースのシステムの可能性を強調している。
結論: この探索研究は、生物医学研究における再現性を自動化する自律的なエージェントとしてのLLMの約束と限界の両方を示している。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - AD-LLM: Benchmarking Large Language Models for Anomaly Detection [50.57641458208208]
本稿では,大規模な言語モデルが異常検出にどのように役立つかを評価する最初のベンチマークであるAD-LLMを紹介する。
我々は、ゼロショット検出、LLMの事前訓練された知識を用いて、タスク固有のトレーニングなしでADを実行すること、データ拡張、ADモデルを改善するために合成データとカテゴリ記述を生成すること、LLMを使用して教師なしADモデルを提案するモデル選択の3つの主要なタスクについて検討する。
論文 参考訳(メタデータ) (2024-12-15T10:22:14Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study [0.28318468414401093]
本稿では,大規模言語モデル (LLM) である GPT-4 を用いて,体系的レビューにおけるデータ抽出(セミ)の実現可能性について述べる。
その結果,約80%の精度で,領域間での変動が認められた。
論文 参考訳(メタデータ) (2024-05-23T11:24:23Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。