論文の概要: BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction
- arxiv url: http://arxiv.org/abs/2302.06860v1
- Date: Tue, 14 Feb 2023 06:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 16:10:52.186459
- Title: BLIAM: Literature-based Data Synthesis for Synergistic Drug Combination
Prediction
- Title(参考訳): BLIAM:Synergistic Drug Combination Predictionのための文献データ合成
- Authors: Cai Yang, Addie Woicik, Hoifung Poon, Sheng Wang
- Abstract要約: BLIAMは、下流アプリケーションに対して解釈可能で、モデルに依存しないトレーニングデータポイントを生成する。
BLIAMは、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントを合成するのにさらに用いられる。
- 参考スコア(独自算出の注目度): 13.361489059744754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models pre-trained on scientific literature corpora have
substantially advanced scientific discovery by offering high-quality feature
representations for downstream applications. However, these features are often
not interpretable, and thus can reveal limited insights to domain experts.
Instead of obtaining features from language models, we propose BLIAM, a
literature-based data synthesis approach to directly generate training data
points that are interpretable and model-agnostic to downstream applications.
The key idea of BLIAM is to create prompts using existing training data and
then use these prompts to synthesize new data points. BLIAM performs these two
steps iteratively as new data points will define more informative prompts and
new prompts will in turn synthesize more accurate data points. Notably,
literature-based data augmentation might introduce data leakage since labels of
test data points in downstream applications might have already been mentioned
in the language model corpus. To prevent such leakage, we introduce GDSC-combo,
a large-scale drug combination discovery dataset that was published after the
biomedical language model was trained. We found that BLIAM substantially
outperforms a non-augmented approach and manual prompting in this rigorous data
split setting. BLIAM can be further used to synthesize data points for novel
drugs and cell lines that were not even measured in biomedical experiments. In
addition to the promising prediction performance, the data points synthesized
by BLIAM are interpretable and model-agnostic, enabling in silico augmentation
for in vitro experiments.
- Abstract(参考訳): 科学文献コーパスで事前訓練された言語モデルは、下流のアプリケーションに高品質な特徴表現を提供することによって、科学的発見を大幅に進歩させた。
しかしながら、これらの機能は解釈できないことが多いため、ドメインの専門家に限られた洞察を与えることができる。
言語モデルから特徴を得る代わりに、文献に基づくデータ合成アプローチであるBLIAMを提案し、下流アプリケーションに対して解釈可能でモデルに依存しないトレーニングデータポイントを直接生成する。
BLIAMのキーとなるアイデアは、既存のトレーニングデータを使用してプロンプトを作成し、これらのプロンプトを使用して新しいデータポイントを合成することだ。
BLIAMはこれらの2つのステップを反復的に実行し、新しいデータポイントはより情報的なプロンプトを定義し、新しいプロンプトはより正確なデータポイントを合成する。
特に、下流アプリケーションでテストデータポイントのラベルがすでに言語モデルコーパスで言及されているため、文献ベースのデータ拡張はデータ漏洩をもたらす可能性がある。
バイオメディカル言語モデルが訓練された後に公開された大規模薬物組み合わせ探索データセットであるGDSC-comboを紹介する。
bliamは,この厳密なデータ分割設定において,非提供アプローチやマニュアルプロンプトを大きく上回っていることがわかった。
BLIAMはさらに、生体医学実験では測定されなかった新しい薬物や細胞株のデータポイントの合成に使用できる。
予測性能の期待に加えて、BLIAMによって合成されたデータポイントは解釈可能で、モデルに依存しないため、in vitro実験でのシリコ増強が可能となる。
関連論文リスト
- Synthetic Data Generation with LLM for Improved Depression Prediction [5.508617844957542]
本研究では, 抑うつ予測モデルの性能向上のために, 合成データを生成するための大規模言語モデルのためのパイプラインを提案する。
データの完全性とプライバシ保護の指標が満足できるだけでなく、トレーニングデータセットの重大度分布のバランスも取れた。
論文 参考訳(メタデータ) (2024-11-26T18:31:14Z) - ChatEMG: Synthetic Data Generation to Control a Robotic Hand Orthosis for Stroke [2.396435395520969]
ChatEMGは自己回帰生成モデルであり、プロンプトで条件付けられた合成EMG信号を生成することができる。
インテント分類器が脳卒中生存者によって整形機能の制御のためにデプロイされたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-06-17T22:04:44Z) - Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文 参考訳(メタデータ) (2024-05-06T19:09:37Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。