論文の概要: TxGemma: Efficient and Agentic LLMs for Therapeutics
- arxiv url: http://arxiv.org/abs/2504.06196v1
- Date: Tue, 08 Apr 2025 16:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:57.905865
- Title: TxGemma: Efficient and Agentic LLMs for Therapeutics
- Title(参考訳): TxGemma:治療の効率的かつエージェント的LLM
- Authors: Eric Wang, Samuel Schmidgall, Paul F. Jaeger, Fan Zhang, Rory Pilgrim, Yossi Matias, Joelle Barral, David Fleet, Shekoofeh Azizi,
- Abstract要約: TxGemmaは、インタラクティブな推論と説明可能性だけでなく、治療的特性予測が可能な効率的で汎用的な大規模言語モデル(LLM)のスイートである。
このスイートには、2B、9B、27Bパラメータモデルが含まれており、Gemma-2から小分子、タンパク質、核酸、疾患、細胞株の包括的なデータセットに微調整されている。
臨床試験の有害事象予測などの下流治療タスクに対する微調整TxGemmaモデルでは、微調整ベースLLMよりもトレーニングデータが少ない。
我々はさらに、汎用的な治療薬システムであるAgentic-Txを紹介する。
- 参考スコア(独自算出の注目度): 11.552668920618226
- License:
- Abstract: Therapeutic development is a costly and high-risk endeavor that is often plagued by high failure rates. To address this, we introduce TxGemma, a suite of efficient, generalist large language models (LLMs) capable of therapeutic property prediction as well as interactive reasoning and explainability. Unlike task-specific models, TxGemma synthesizes information from diverse sources, enabling broad application across the therapeutic development pipeline. The suite includes 2B, 9B, and 27B parameter models, fine-tuned from Gemma-2 on a comprehensive dataset of small molecules, proteins, nucleic acids, diseases, and cell lines. Across 66 therapeutic development tasks, TxGemma achieved superior or comparable performance to the state-of-the-art generalist model on 64 (superior on 45), and against state-of-the-art specialist models on 50 (superior on 26). Fine-tuning TxGemma models on therapeutic downstream tasks, such as clinical trial adverse event prediction, requires less training data than fine-tuning base LLMs, making TxGemma suitable for data-limited applications. Beyond these predictive capabilities, TxGemma features conversational models that bridge the gap between general LLMs and specialized property predictors. These allow scientists to interact in natural language, provide mechanistic reasoning for predictions based on molecular structure, and engage in scientific discussions. Building on this, we further introduce Agentic-Tx, a generalist therapeutic agentic system powered by Gemini 2.5 that reasons, acts, manages diverse workflows, and acquires external domain knowledge. Agentic-Tx surpasses prior leading models on the Humanity's Last Exam benchmark (Chemistry & Biology) with 52.3% relative improvement over o3-mini (high) and 26.7% over o3-mini (high) on GPQA (Chemistry) and excels with improvements of 6.3% (ChemBench-Preference) and 2.4% (ChemBench-Mini) over o3-mini (high).
- Abstract(参考訳): 治療法の開発は高価でリスクの高い取り組みであり、しばしば高い失敗率に悩まされる。
これを解決するために,我々は,対話型推論と説明可能性だけでなく,治療的特性予測が可能な,効率的で汎用的な大規模言語モデル(LLM)のスイートであるTxGemmaを紹介した。
タスク固有のモデルとは異なり、TxGemmaは様々なソースから情報を合成し、治療開発パイプライン全体にわたって幅広い応用を可能にする。
このスイートには、2B、9B、27Bパラメータモデルが含まれており、Gemma-2から小分子、タンパク質、核酸、疾患、細胞株の包括的なデータセットに微調整されている。
TxGemmaは、66件の治療開発タスクにおいて、64件(45件)の最先端ジェネラリストモデルと、50件(26件)の最先端スペシャリストモデルに対して、優れたあるいは同等のパフォーマンスを達成した。
臨床治験不良事象予測などの下流治療タスクの微調整TxGemmaモデルでは、微調整ベースLLMよりもトレーニングデータが少ないため、データ限定の用途に適している。
これらの予測機能以外にも、TxGemmaは一般的なLLMと特殊なプロパティ予測器の間のギャップを埋める対話モデルを備えている。
これらは、科学者が自然言語で対話し、分子構造に基づく予測の機械論的推論を提供し、科学的議論を行うことを可能にする。
我々はさらに,Gemini 2.5をベースとした汎用的な治療薬システムであるAgentic-Txを紹介した。
Agentic-TxはHumanityのLast Examベンチマーク(Chemistry & Biology)を52.3%、GPQA(Chemistry)でO3-mini(High)で26.7%、O3-mini(high)で6.3%(ChemBench-Preference)で2.4%(ChemBench-Mini)で上回っている。
関連論文リスト
- LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison [3.2627279988912194]
大規模言語モデル (LLM) は様々な領域に革命をもたらしたが、薬学研究におけるその可能性はほとんど解明されていない。
本研究は薬物と薬物の相互作用(DDI)を予測するLLMの機能について徹底的に研究する。
プロプライエタリモデル(GPT-4, Claude, Gemini)やオープンソースモデル(1.5Bから72Bパラメータ)を含む18種類のLCMを評価した。
微調整のLLMは優れた性能を示し、Phi-3.5 2.7BはDDI予測において0.978の感度を達成し、バランスの取れたデータセットでは0.919の精度を実現した。
論文 参考訳(メタデータ) (2025-02-09T09:58:12Z) - Development and Comparative Analysis of Machine Learning Models for Hypoxemia Severity Triage in CBRNE Emergency Scenarios Using Physiological and Demographic Data from Medical-Grade Devices [0.0]
グラディエントブースティングモデル(GBM)は、トレーニング速度、解釈可能性、信頼性の点で、シーケンシャルモデルを上回った。
タイムリーな介入のために5分間の予測ウィンドウが選択された。
本研究は、トリアージを改善し、アラーム疲労を軽減するMLの可能性を強調した。
論文 参考訳(メタデータ) (2024-10-30T23:24:28Z) - Tx-LLM: A Large Language Model for Therapeutics [10.304815129060266]
本稿では,多彩な治療モダリティに関する知識を符号化した汎用大規模言語モデル(LLM)であるTx-LLMを紹介する。
Tx-LLMは、ドラッグディスカバリパイプラインのさまざまなステージにまたがる66タスクをターゲットとする709データセットのコレクションを使用して、トレーニングされている。
論文 参考訳(メタデータ) (2024-06-10T14:33:02Z) - Advancing Multimodal Medical Capabilities of Gemini [32.28727204275662]
我々は、ジェミニのコア能力を継承する新しいメドジェニーニ族の中で、いくつかのモデルを開発する。
Med-Gemini-2Dは、専門家の評価に基づいて、AIベースの胸部X線(CXR)レポート生成の新しい標準を設定する。
Med-Gemini-3D は3次元CT(Computerd tomography)ボリュームのための最初の大規模マルチモーダル・モデルに基づくレポート生成である。
論文 参考訳(メタデータ) (2024-05-06T04:44:22Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Small Language Models Learn Enhanced Reasoning Skills from Medical Textbooks [17.40940406100025]
私たちは、70億から700億のパラメータからなる、医療AIシステムの新しいファミリーであるMeerkatを紹介します。
我々のシステムは6つの医療ベンチマークで顕著な精度を達成した。
Meerkat-70Bは38例中21例を正しく診断し、ヒトの13.8例を上回った。
論文 参考訳(メタデータ) (2024-03-30T14:09:00Z) - Generative models improve fairness of medical classifiers under
distribution shifts [49.10233060774818]
データから現実的な拡張を自動的に学習することは、生成モデルを用いてラベル効率の良い方法で可能であることを示す。
これらの学習の強化は、モデルをより堅牢で統計的に公平に配布できることを示した。
論文 参考訳(メタデータ) (2023-04-18T18:15:38Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。