論文の概要: A Dataset for Distilling Knowledge Priors from Literature for Therapeutic Design
- arxiv url: http://arxiv.org/abs/2508.10899v1
- Date: Thu, 14 Aug 2025 17:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.451391
- Title: A Dataset for Distilling Knowledge Priors from Literature for Therapeutic Design
- Title(参考訳): 教育設計のための文献からの知識優先の蒸留のためのデータセット
- Authors: Haydn Thomas Jones, Natalie Maus, Josh Magnus Ludan, Maggie Ziyu Huan, Jiaming Liang, Marcelo Der Torossian Torres, Jiatao Liang, Zachary Ives, Yoseph Barash, Cesar de la Fuente-Nunez, Jacob R. Gardner, Mark Yatskar,
- Abstract要約: 実験室で用いられる化合物を記述した文献から抽出した設計問題のデータセットである ourdataset を紹介する。
我々のデータセットは3230万対の自然言語事実と 適切な実体表現で構成されています
学習可能なパラメータが15Mの最良のモデルでは,TDCタスクの回帰と分類の両方において,2B TxGemmaよりも優れていた。
- 参考スコア(独自算出の注目度): 12.311714450348235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-driven discovery can greatly reduce design time and enhance new therapeutics' effectiveness. Models using simulators explore broad design spaces but risk violating implicit constraints due to a lack of experimental priors. For example, in a new analysis we performed on a diverse set of models on the GuacaMol benchmark using supervised classifiers, over 60\% of molecules proposed had high probability of being mutagenic. In this work, we introduce \ourdataset, a dataset of priors for design problems extracted from literature describing compounds used in lab settings. It is constructed with LLM pipelines for discovering therapeutic entities in relevant paragraphs and summarizing information in concise fair-use facts. \ourdataset~ consists of 32.3 million pairs of natural language facts, and appropriate entity representations (i.e. SMILES or refseq IDs). To demonstrate the potential of the data, we train LLM, CLIP, and LLava architectures to reason jointly about text and design targets and evaluate on tasks from the Therapeutic Data Commons (TDC). \ourdataset~is highly effective for creating models with strong priors: in supervised prediction problems that use our data as pretraining, our best models with 15M learnable parameters outperform larger 2B TxGemma on both regression and classification TDC tasks, and perform comparably to 9B models on average. Models built with \ourdataset~can be used as constraints while optimizing for novel molecules in GuacaMol, resulting in proposals that are safer and nearly as effective. We release our dataset at \href{https://huggingface.co/datasets/medexanon/Medex}{huggingface.co/datasets/medexanon/Medex}, and will provide expanded versions as available literature grows.
- Abstract(参考訳): AIによる発見は、設計時間を大幅に短縮し、新しい治療の有効性を高める。
シミュレータを用いたモデルは広い設計空間を探索するが、実験的な事前条件の欠如により暗黙の制約に違反するリスクがある。
例えば、教師付き分類器を用いたGuacaMolベンチマークの多種多様なモデルを用いて、新しい分析を行ったところ、提案する分子の60%以上が変異原性である可能性が高かった。
そこで本研究では,実験室で用いられる化合物を記述した文献から抽出した設計問題の先行データである \ourdataset について紹介する。
関連項における治療薬の発見と、簡潔なフェアユース事実における情報の要約のためのLLMパイプラインで構築されている。
\ourdataset~は3230万対の自然言語事実と適切な実体表現(SMILESまたはrefseq ID)から構成される。
データの可能性を示すため、LLM、CLIP、LLavaアーキテクチャをトレーニングし、テキストと設計ターゲットについて共同で推論し、Therapeutic Data Commons(TDC)からタスクを評価する。
事前トレーニングとしてデータを使用する教師付き予測問題では,15Mの学習可能なパラメータを持つ最良のモデルが,回帰処理と分類TDCタスクにおいて2B TxGemmaより優れ,平均9Bモデルと同等に動作する。
urdataset~で構築されたモデルは、GuacaMolの新規分子を最適化しながら制約として使用できる。
私たちはデータセットを \href{https://huggingface.co/datasets/medexanon/Medex}{huggingface.co/datasets/medexanon/Medex} でリリースします。
関連論文リスト
- SMOTExT: SMOTE meets Large Language Models [19.394116388173885]
本稿では,SMOTE(Synthetic Minority Over-sampling)の概念をテキストデータに適用する新しい手法SMOTExTを提案する。
提案手法は,既存の2つの例のBERTベースの埋め込みを補間することにより,新しい合成例を生成する。
初期の実験では、生成されたデータのみを対象としたトレーニングモデルは、元のデータセットでトレーニングされたモデルと同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-05-19T17:57:36Z) - VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science [32.92218213317144]
既存のデータセットは小さく、ノイズが多いため、有効性は制限されることが多い。
我々は、小型でノイズの多いデータセットを増強するために特別に設計された生成モデルを開発する。
我々は,ChEMBL 上で事前学習した VECT-GAN を pip パッケージとして利用できるようにした。
論文 参考訳(メタデータ) (2025-01-15T18:23:33Z) - AutoElicit: Using Large Language Models for Expert Prior Elicitation in Predictive Modelling [53.54623137152208]
我々はAutoElicitを導入し、大規模言語モデルから知識を抽出し、予測モデルのための事前構築を行う。
これらの先行情報は情報的であり、自然言語を用いて洗練できることを示す。
AutoElicitは、非形式的な事前よりもエラーを大幅に減らし、ラベルを減らし、コンテクスト内学習を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-26T10:13:39Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Treatment-RSPN: Recurrent Sum-Product Networks for Sequential Treatment
Regimes [3.7004311481324677]
Sum-product Network (SPN) は、高い効率な確率的推論を可能にする新しいディープラーニングアーキテクチャとして登場した。
RSPNを用いた逐次的処理決定行動と処理応答のモデル化のための一般的なフレームワークを提案する。
本研究は,MIMIC-IV集中治療ユニット医療データベースから得られた,人工的データセットと実世界のデータに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-11-14T00:18:44Z) - Empirical Analysis of Model Selection for Heterogeneous Causal Effect Estimation [24.65301562548798]
本研究では,因果推論におけるモデル選択の問題,特に条件付き平均処理効果(CATE)の推定について検討する。
本研究では,本研究で導入されたサロゲートモデル選択指標と,本研究で導入された新しい指標のベンチマークを行う。
論文 参考訳(メタデータ) (2022-11-03T16:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。