論文の概要: LLM Novice Uplift on Dual-Use, In Silico Biology Tasks
- arxiv url: http://arxiv.org/abs/2602.23329v1
- Date: Thu, 26 Feb 2026 18:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.848068
- Title: LLM Novice Uplift on Dual-Use, In Silico Biology Tasks
- Title(参考訳): LLMの初歩的上昇と二元的, シリカ生物学的課題
- Authors: Chen Bo Calvin Zhang, Christina Q. Knight, Nicholas Kruus, Jason Hausenloy, Pedro Medeiros, Nathaniel Li, Aiden Kim, Yury Orlovskiy, Coleman Breen, Bryce Cai, Jasper Götting, Andrew Bo Liu, Samira Nedungadi, Paula Rodriguez, Yannis Yiming He, Mohamed Shaaban, Zifan Wang, Seth Donoughe, Julian Michael,
- Abstract要約: 大規模言語モデル(LLM)は生物学のベンチマークでますますよく機能する。
初心者ユーザーを引き揚げるかどうかは不明だ。
この不確実性は、科学的な加速と二重利用リスクの両方を理解するために重要である。
- 参考スコア(独自算出の注目度): 6.174411715393828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) perform increasingly well on biology benchmarks, but it remains unclear whether they uplift novice users -- i.e., enable humans to perform better than with internet-only resources. This uncertainty is central to understanding both scientific acceleration and dual-use risk. We conducted a multi-model, multi-benchmark human uplift study comparing novices with LLM access versus internet-only access across eight biosecurity-relevant task sets. Participants worked on complex problems with ample time (up to 13 hours for the most involved tasks). We found that LLM access provided substantial uplift: novices with LLMs were 4.16 times more accurate than controls (95% CI [2.63, 6.87]). On four benchmarks with available expert baselines (internet-only), novices with LLMs outperformed experts on three of them. Perhaps surprisingly, standalone LLMs often exceeded LLM-assisted novices, indicating that users were not eliciting the strongest available contributions from the LLMs. Most participants (89.6%) reported little difficulty obtaining dual-use-relevant information despite safeguards. Overall, LLMs substantially uplift novices on biological tasks previously reserved for trained practitioners, underscoring the need for sustained, interactive uplift evaluations alongside traditional benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は生物学のベンチマークでますますよく機能するが、初歩的なユーザ、すなわちインターネットのみのリソースよりも優れたパフォーマンスを実現することができるかどうかは不明だ。
この不確実性は、科学的な加速と二重利用リスクの両方を理解するために重要である。
我々は,8つのバイオセキュリティ関連タスクセットにまたがる,LLMアクセスとインターネットのみアクセスの初心者を対象に,マルチモデル・マルチベンチマーク人間アップリフト研究を行った。
参加者は十分な時間(最も関係のあるタスクで最大13時間)で複雑な問題に取り組みました。
LLMの初心者はコントロールの4.16倍(95% CI [2.63, 6.87])であった。
利用可能なエキスパートベースライン(インターネットのみ)を持つ4つのベンチマークでは、LLMの初心者が3つの専門家を上回った。
意外なことに、スタンドアローンのLCMはLDM支援初心者を超越することが多く、LSMからの最も強力なコントリビューションをユーザーが求めていないことを示している。
ほとんどの参加者(89.6%)は、保護にもかかわらず二重使用関連情報を得るのが困難であると報告した。
全体として、LSMは、従来のベンチマークと並んで、持続的でインタラクティブな隆起評価の必要性を強調し、以前に訓練された実践者のために予約されていた生物学的タスクの初心者を著しく高揚させる。
関連論文リスト
- LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。
LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文 参考訳(メタデータ) (2025-07-29T02:34:28Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文 参考訳(メタデータ) (2025-05-09T15:21:44Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Forecasting Credit Ratings: A Case Study where Traditional Methods Outperform Generative LLMs [17.109522466982476]
大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。
本稿では,企業信用格付け予測におけるLCMの業績について検討する。
論文 参考訳(メタデータ) (2024-07-24T20:30:55Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Quantifying Self-diagnostic Atomic Knowledge in Chinese Medical Foundation Model: A Computational Analysis [55.742339781494046]
ファンデーションモデル(FM)は、直接的で効率的な提案を提供することで、ユーザーが検索エンジンを通して自己診断する方法に革命をもたらす可能性がある。
近年の研究では、GPT-4で評価されたFMの品質や、医学試験に合格する能力に焦点が当てられている。
FMの記憶に蓄えられた自己診断的原子知識の程度を定量化する研究はない。
論文 参考訳(メタデータ) (2023-10-18T05:42:22Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。