論文の概要: From Artificially Real to Real: Leveraging Pseudo Data from Large
Language Models for Low-Resource Molecule Discovery
- arxiv url: http://arxiv.org/abs/2309.05203v2
- Date: Thu, 21 Dec 2023 09:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:36:37.851293
- Title: From Artificially Real to Real: Leveraging Pseudo Data from Large
Language Models for Low-Resource Molecule Discovery
- Title(参考訳): 人工現実から現実へ:低リソース分子発見のための大規模言語モデルからの疑似データ活用
- Authors: Yuhan Chen, Nuwa Xi, Yanrui Du, Haochun Wang, Chen Jianyu, Sendong
Zhao, Bing Qin
- Abstract要約: 分子発見のためのクロスモーダル技術は、しばしばデータ不足の問題に遭遇し、その性能と応用を妨げる。
我々は,高品質な擬似データを構築するための検索ベースのプロンプト戦略を導入し,この擬似データを効果的に活用するための最適手法を探る。
実験により、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドより優れており、モデルスケールが小さく、データサイズが小さく、トレーニングコストも低いことが示されている。
- 参考スコア(独自算出の注目度): 26.84156844249418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecule discovery serves as a cornerstone in numerous scientific domains,
fueling the development of new materials and innovative drug designs. Recent
developments of in-silico molecule discovery have highlighted the promising
results of cross-modal techniques, which bridge molecular structures with their
descriptive annotations. However, these cross-modal methods frequently
encounter the issue of data scarcity, hampering their performance and
application. In this paper, we address the low-resource challenge by utilizing
artificially-real data generated by Large Language Models (LLMs). We first
introduce a retrieval-based prompting strategy to construct high-quality pseudo
data, then explore the optimal method to effectively leverage this pseudo data.
Experiments show that using pseudo data for domain adaptation outperforms all
existing methods, while also requiring a smaller model scale, reduced data size
and lower training cost, highlighting its efficiency. Furthermore, our method
shows a sustained improvement as the volume of pseudo data increases, revealing
the great potential of pseudo data in advancing low-resource cross-modal
molecule discovery. Our code and data are available at
https://github.com/SCIR-HI/ArtificiallyR2R.
- Abstract(参考訳): 分子発見は多くの科学分野の基盤となり、新しい材料や革新的な医薬品の設計を加速させた。
近年のシリカ分子発見は、分子構造を記述的アノテーションで橋渡しするクロスモーダル手法の有望な成果を浮き彫りにした。
しかし、これらのクロスモーダルメソッドは、しばしばデータ不足の問題に遭遇し、パフォーマンスとアプリケーションを妨げる。
本稿では,Large Language Models (LLM) が生成する人工現実データを活用することで,低リソースの課題に対処する。
まず,質の高い疑似データを構築するための検索に基づくプロンプト戦略を導入し,この疑似データを効果的に活用するための最適な方法を検討する。
実験によると、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドよりも優れており、モデルスケールの縮小、データサイズ削減、トレーニングコストの削減、効率の向上も必要である。
さらに,疑似データ量の増加に伴い,低リソースのクロスモーダル分子の発見において,疑似データの潜在能力が著しく向上することを示す。
私たちのコードとデータはhttps://github.com/scir-hi/artificiallyr2rで入手できます。
関連論文リスト
- KinDEL: DNA-Encoded Library Dataset for Kinase Inhibitors [2.0179908661487986]
KinDELは2つのキナーゼ上のDELデータセットとして初めて公開された。
我々は、ヒット識別のための予測モデルを開発するために、異なる機械学習手法をベンチマークする。
我々は、分子の小さなサブセット上でモデルを検証するために、オンとオフの両方で生物物理学的なアッセイデータを提供する。
論文 参考訳(メタデータ) (2024-10-11T16:03:58Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。
本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。
我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文 参考訳(メタデータ) (2024-05-06T19:09:37Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Objective-Agnostic Enhancement of Molecule Properties via Multi-Stage
VAE [1.3597551064547502]
変異オートエンコーダ(VAE)は医薬品発見の一般的な方法であり、その性能を改善するために様々なアーキテクチャやパイプラインが提案されている。
VAEアプローチは、データが高次元の周囲空間に埋め込まれた低次元多様体上にあるとき、多様体の回復不良に悩まされることが知られている。
本稿では, 合成データセット上での多様体回復を向上する多段階VAEアプローチを創薬分野に適用することを検討する。
論文 参考訳(メタデータ) (2023-08-24T20:22:22Z) - MoleHD: Ultra-Low-Cost Drug Discovery using Hyperdimensional Computing [2.7462881838152913]
分子特性予測のための脳誘発超次元計算(HDC)に基づくMoleHDを提案する。
MoleHDは、ランダムスプリットとスキャフォールドスプリットで、平均3つのデータセットでROC-AUCスコアを達成している。
私たちの知る限りでは、この方法が初めてHDCベースの薬物発見法である。
論文 参考訳(メタデータ) (2021-06-05T13:33:21Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - MolTrans: Molecular Interaction Transformer for Drug Target Interaction
Prediction [68.5766865583049]
薬物標的相互作用(DTI)予測は、シリコ薬物発見の基本的な課題である。
近年、DTI予測におけるディープラーニングの進歩が期待されている。
これらの制約に対処する分子間相互作用変換器(TransMol)を提案する。
論文 参考訳(メタデータ) (2020-04-23T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。