論文の概要: Can Large Language Models Replace Data Scientists in Biomedical Research?
- arxiv url: http://arxiv.org/abs/2410.21591v2
- Date: Tue, 08 Apr 2025 21:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:04:40.873055
- Title: Can Large Language Models Replace Data Scientists in Biomedical Research?
- Title(参考訳): 大規模言語モデルはバイオメディカル研究でデータサイエンティストを置き換えることができるか?
- Authors: Zifeng Wang, Benjamin Danek, Ziwei Yang, Zheng Chen, Jimeng Sun,
- Abstract要約: 大規模言語モデル(LLM)は、医学的タスクをサポートし、一般的なコーディングテストでうまく機能する可能性を示している。
このベンチマークは、現実のTCGA型ゲノム学および臨床データで実行される293のコーディングタスク(Pythonで128、Rで165)からなる。
LLMを医療専門家のためのデータサイエンスワークフローに統合するプラットフォームを開発した。
- 参考スコア(独自算出の注目度): 28.211990967264818
- License:
- Abstract: Data science plays a critical role in biomedical research, but it requires professionals with expertise in coding and medical data analysis. Large language models (LLMs) have shown great potential in supporting medical tasks and performing well in general coding tests. However, existing evaluations fail to assess their capability in biomedical data science, particularly in handling diverse data types such as genomics and clinical datasets. To address this gap, we developed a benchmark of data science coding tasks derived from the analyses of 39 published studies. This benchmark comprises 293 coding tasks (128 in Python and 165 in R) performed on real-world TCGA-type genomics and clinical data. Our findings reveal that the vanilla prompting of LLMs yields suboptimal performances due to drawbacks in following input instructions, understanding target data, and adhering to standard analysis practices. Next, we benchmarked six cutting-edge LLMs and advanced adaptation methods, finding two methods to be particularly effective: chain-of-thought prompting, which provides a step-by-step plan for data analysis, which led to a 21% code accuracy improvement (56.6% versus 35.3%); and self-reflection, enabling LLMs to refine the buggy code iteratively, yielding an 11% code accuracy improvement (45.5% versus 34.3%). Building on these insights, we developed a platform that integrates LLMs into the data science workflow for medical professionals. In a user study with five medical professionals, we found that while LLMs cannot fully automate programming tasks, they significantly streamline the programming process. We found that 80% of their submitted code solutions were incorporated from LLM-generated code, with up to 96% reuse in some cases. Our analysis highlights the potential of LLMs to enhance data science efficiency in biomedical research when integrated into expert workflows.
- Abstract(参考訳): データサイエンスは生物医学研究において重要な役割を担っているが、コーディングと医療データ分析の専門知識を持つ専門家が必要である。
大規模言語モデル(LLM)は、医学的タスクをサポートし、一般的なコーディングテストでうまく機能する可能性を示している。
しかし、既存の評価では、バイオメディカルデータサイエンス、特にゲノム学や臨床データセットのような多様なデータタイプを扱う能力の評価に失敗している。
このギャップに対処するため、39の論文の分析から得られたデータサイエンスコーディングタスクのベンチマークを開発した。
このベンチマークは、現実のTCGA型ゲノム学および臨床データで実行される293のコーディングタスク(Pythonで128、Rで165)からなる。
以上の結果から,LPMのバニラプロンプトは,入力命令の追従,対象データの理解,標準解析の実践に固執するなどの欠点により,最適以下の性能が得られることが明らかとなった。
次に、6つの最先端のLCMと高度な適応手法をベンチマークし、特に有効である2つの方法を見つけました: チェーン・オブ・シークレット・プロンプトは、データ分析のステップ・バイ・ステップ・プランを提供し、21%のコード精度の改善(56.6%対35.3%)と自己回帰をもたらし、LCMが反復的にバグのコードを改善することを可能にし、11%のコード精度の改善(45.5%対34.3%)を実現しました。
これらの知見に基づいて、医療専門家のためのデータサイエンスワークフローにLLMを統合するプラットフォームを開発しました。
5人の医療従事者を対象にしたユーザスタディでは,LSMはプログラムタスクを完全に自動化することはできないが,プログラムプロセスを大幅に合理化していることがわかった。
提案されたコードソリューションの80%がLLM生成コードから組み込まれており、いくつかのケースでは最大96%が再利用されていることがわかった。
我々の分析は、専門家のワークフローに統合された場合、バイオメディカル研究におけるデータサイエンスの効率を高めるLLMの可能性を強調した。
関連論文リスト
- DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - LLMs for Science: Usage for Code Generation and Data Analysis [0.07499722271664144]
大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。
LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。
論文 参考訳(メタデータ) (2023-11-28T12:29:33Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - PyTrial: Machine Learning Software and Benchmark for Clinical Trial
Applications [49.69824178329405]
PyTrialは、臨床試験の設計と運用のための一連の機械学習アルゴリズムのベンチマークとオープンソース実装を提供する。
患者結果予測,臨床試験サイト選択,トライアル結果予測,患者と臨床のマッチング,トライアル類似性検索,合成データ生成など,6つのタスクにわたる臨床試験のための34のMLアルゴリズムを網羅的に検討した。
PyTrialは、データローディング、モデル仕様、モデルトレーニング、モデル評価という、単純な4段階のプロセスで各タスクを定義します。
論文 参考訳(メタデータ) (2023-06-06T21:19:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。