論文の概要: Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology
- arxiv url: http://arxiv.org/abs/2602.16703v1
- Date: Wed, 18 Feb 2026 18:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.692686
- Title: Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology
- Title(参考訳): 2025年半ばのLDMの生体内初期性能測定
- Authors: Shen Zhou Hong, Alex Kleinman, Alyssa Mathiowetz, Adam Howes, Julian Cohen, Suveer Ganta, Alex Letizia, Dora Liao, Deepika Pahari, Xavier Roberts-Gaal, Luca Righetti, Joe Torres,
- Abstract要約: 大規模言語モデル(LLM)は生物学的なベンチマークで強く機能し、初心者アクターがデュアルユースな実験室の技術を習得するのに役立つのではないかという懸念を提起する。
ウイルスのリバース・ジェネティクス・ワークフローをモデル化したタスクにおいて,LSMが初歩的パフォーマンスを向上させるか否かを検討した。
LLMは、複雑な実験室の手続きの初歩的な完了を著しく増加させることはなかったが、性能上の利点は緩やかであった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) perform strongly on biological benchmarks, raising concerns that they may help novice actors acquire dual-use laboratory skills. Yet, whether this translates to improved human performance in the physical laboratory remains unclear. To address this, we conducted a pre-registered, investigator-blinded, randomized controlled trial (June-August 2025; n = 153) evaluating whether LLMs improve novice performance in tasks that collectively model a viral reverse genetics workflow. We observed no significant difference in the primary endpoint of workflow completion (5.2% LLM vs. 6.6% Internet; P = 0.759), nor in the success rate of individual tasks. However, the LLM arm had numerically higher success rates in four of the five tasks, most notably for the cell culture task (68.8% LLM vs. 55.3% Internet; P = 0.059). Post-hoc Bayesian modeling of pooled data estimates an approximate 1.4-fold increase (95% CrI 0.74-2.62) in success for a "typical" reverse genetics task under LLM assistance. Ordinal regression modelling suggests that participants in the LLM arm were more likely to progress through intermediate steps across all tasks (posterior probability of a positive effect: 81%-96%). Overall, mid-2025 LLMs did not substantially increase novice completion of complex laboratory procedures but were associated with a modest performance benefit. These results reveal a gap between in silico benchmarks and real-world utility, underscoring the need for physical-world validation of AI biosecurity assessments as model capabilities and user proficiency evolve.
- Abstract(参考訳): 大規模言語モデル(LLM)は生物学的なベンチマークで強く機能し、初心者アクターがデュアルユースな実験室の技術を習得するのに役立つのではないかという懸念を提起する。
しかし、これが身体実験室での人間のパフォーマンス向上に繋がるかどうかはまだ不明である。
2025年6月~8月,n = 153) では,ウイルスのリバース・ジェネティクス・ワークフローを集合的にモデル化したタスクにおいて,LSMが初歩的パフォーマンスを向上させるか否かを評価する。
我々は、ワークフロー完了の第一のエンドポイント(5.2% LLM vs. Internet; P = 0.759)や、個々のタスクの成功率に有意な差は見られなかった。
しかし、LSMアームは5つのタスクのうち4つのタスクのうち、特に細胞培養タスク(68.8% LLM vs. 55.3% Internet; P = 0.059)において、数値的に高い成功率を示した。
プールされたデータのポストホックベイズモデリングでは、LLMの補助下での「典型的な」逆遺伝学タスクにおいて、およそ1.4倍の増加(95%CrI 0.74-2.62)が成功したと見積もられている。
通常の回帰モデルでは、LSMアームの参加者は全てのタスクの中間段階(後向き効果の確率:81%-96%)で進行する傾向が示唆された。
全体として、2025年半ばのLLMは、複雑な実験室の手順の初歩的な完成を著しく向上することはなかったが、性能上の利点は緩やかであった。
これらの結果は、モデル能力とユーザ習熟度が進化するにつれて、AIバイオセキュリティアセスメントの物理的な検証の必要性を裏付ける、シリコンベンチマークと実世界のユーティリティのギャップを明らかにしている。
関連論文リスト
- Benchmarking LLMs for Predictive Applications in the Intensive Care Units [2.301368952468297]
この研究では、GatorTron-Base(臨床データに基づいてトレーニングされた)、Llama 8B、Mistral 7Bといった大規模言語モデルと、BioBERT、DocBERT、BioClinicalBERT、Word2Vec、Doc2Vecといったモデルを比較した。
有意義な臨床結果を得るためには, LLMのトレーニングにおける今後の取り組みは, 臨床軌跡を予測できる発展型モデルを優先すべきである。
論文 参考訳(メタデータ) (2025-12-23T17:08:31Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Can LLM Agents Simulate Multi-Turn Human Behavior? Evidence from Real Online Customer Behavior Data [46.65903742010956]
本研究では,人間の行動を正確にシミュレートする,最先端のLDMの能力の大規模定量的評価を行った。
230,965件のユーザアクションを含む31,865件のオンラインショッピングセッションから得られた実世界データを用いて,プロンプトベースのLCMが人間の行動生成においてわずか11.86%の精度で達成できることを明らかにする。
また, 実クリックスルーデータに対して, モデルの性能を大幅に向上させる手法として, 実クリックスルーデータに対する微調整 LLM の戦略を提示する。
論文 参考訳(メタデータ) (2025-03-26T17:33:27Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - A Comprehensive Study on Large Language Models for Mutation Testing [36.00296047226433]
大規模言語モデル(LLM)は、最近、研究作業と産業実践の両方においてミュータントを生成するために使用されている。
BugFarm と LLMorpheus (最先端の2つの LLM ベースのアプローチ) を,Java の実世界の2つのバグベンチマークから,851 の実際のバグに対して評価した。
以上の結果から, LLMは既存のルールベースアプローチと比較して, 実際のバグに近づき, 111.29%の障害検出率を持つ, より多様な変異体を生成することが明らかとなった。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [69.6913064185993]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。