Fugu-MT 論文翻訳(概要): From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery

論文の概要: From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery

arxiv url: http://arxiv.org/abs/2309.05203v3
Date: Tue, 5 Mar 2024 10:51:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 02:38:11.440251
Title: From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery
Title（参考訳）: 人工現実から現実へ:低リソース分子発見のための大規模言語モデルからの疑似データ活用
Authors: Yuhan Chen, Nuwa Xi, Yanrui Du, Haochun Wang, Jianyu Chen, Sendong Zhao, Bing Qin
Abstract要約: 分子発見のためのクロスモーダル技術は、しばしばデータ不足の問題に遭遇し、その性能と応用を妨げる。我々は,高品質な擬似データを構築するための検索ベースのプロンプト戦略を導入し,この擬似データを効果的に活用するための最適手法を探る。実験により、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドより優れており、モデルスケールが小さく、データサイズが小さく、トレーニングコストも低いことが示されている。
参考スコア（独自算出の注目度）: 35.5507452011217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Molecule discovery serves as a cornerstone in numerous scientific domains, fueling the development of new materials and innovative drug designs. Recent developments of in-silico molecule discovery have highlighted the promising results of cross-modal techniques, which bridge molecular structures with their descriptive annotations. However, these cross-modal methods frequently encounter the issue of data scarcity, hampering their performance and application. In this paper, we address the low-resource challenge by utilizing artificially-real data generated by Large Language Models (LLMs). We first introduce a retrieval-based prompting strategy to construct high-quality pseudo data, then explore the optimal method to effectively leverage this pseudo data. Experiments show that using pseudo data for domain adaptation outperforms all existing methods, while also requiring a smaller model scale, reduced data size and lower training cost, highlighting its efficiency. Furthermore, our method shows a sustained improvement as the volume of pseudo data increases, revealing the great potential of pseudo data in advancing low-resource cross-modal molecule discovery. Our code and data are available at https://github.com/SCIR-HI/ArtificiallyR2R.
Abstract（参考訳）: 分子発見は多くの科学分野の基盤となり、新しい材料や革新的な医薬品の設計を加速させた。近年のシリカ分子発見は、分子構造を記述的アノテーションで橋渡しするクロスモーダル手法の有望な成果を浮き彫りにした。しかし、これらのクロスモーダルメソッドは、しばしばデータ不足の問題に遭遇し、パフォーマンスとアプリケーションを妨げる。本稿では,Large Language Models (LLM) が生成する人工現実データを活用することで,低リソースの課題に対処する。まず,質の高い疑似データを構築するための検索に基づくプロンプト戦略を導入し,この疑似データを効果的に活用するための最適な方法を検討する。実験によると、ドメイン適応のための擬似データの使用は、既存のすべてのメソッドよりも優れており、モデルスケールの縮小、データサイズ削減、トレーニングコストの削減、効率の向上も必要である。さらに,疑似データ量の増加に伴い,低リソースのクロスモーダル分子の発見において,疑似データの潜在能力が著しく向上することを示す。私たちのコードとデータはhttps://github.com/scir-hi/artificiallyr2rで入手できます。

関連論文リスト

Sparse Data Generation Using Diffusion Models [22.560860958917672]
本稿では,スパースデータを生成する新しい手法であるスパースデータ拡散(SDD)を紹介する。 SDDは、生成されたデータの品質を保ちながら、データ空間の表現において高い忠実性を達成する。
論文参考訳（メタデータ） (2025-02-04T16:14:28Z)
VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science [32.92218213317144]
既存のデータセットは小さく、ノイズが多いため、有効性は制限されることが多い。我々は、小型でノイズの多いデータセットを増強するために特別に設計された生成モデルを開発する。我々は,ChEMBL 上で事前学習した VECT-GAN を pip パッケージとして利用できるようにした。
論文参考訳（メタデータ） (2025-01-15T18:23:33Z)
KinDEL: DNA-Encoded Library Dataset for Kinase Inhibitors [2.0179908661487986]
KinDELは2つのキナーゼ上のDELデータセットとして初めて公開された。我々は、ヒット識別のための予測モデルを開発するために、異なる機械学習手法をベンチマークする。我々は、分子の小さなサブセット上でモデルを検証するために、オンとオフの両方で生物物理学的なアッセイデータを提供する。
論文参考訳（メタデータ） (2024-10-11T16:03:58Z)
Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文参考訳（メタデータ） (2024-06-18T16:20:12Z)
LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。実験の結果, LDMolはテキストから分子生成ベンチマークにおいて, 既存の自己回帰ベースラインよりも優れていた。我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文参考訳（メタデータ） (2024-05-28T04:59:13Z)
Synthetic Data from Diffusion Models Improve Drug Discovery Prediction [1.3686993145787065]
データあいまいさは、重要な研究課題に答えようとする研究者にとって、データのキュレーションを難しくする。本稿では,リガンドおよび薬物動態データをエンドツーエンドに生成できる新しい拡散GNNモデルSyngandを提案する。我々は,AqSolDB,LD50,hERGを中心とした下流回帰タスクにおいて,Syngand生成した合成目標データの有効性について,最初の有望な結果を示した。
論文参考訳（メタデータ） (2024-05-06T19:09:37Z)
Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。 HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文参考訳（メタデータ） (2024-05-05T08:35:23Z)
Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。 IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文参考訳（メタデータ） (2024-04-24T03:25:53Z)
Objective-Agnostic Enhancement of Molecule Properties via Multi-Stage VAE [1.3597551064547502]
変異オートエンコーダ(VAE)は医薬品発見の一般的な方法であり、その性能を改善するために様々なアーキテクチャやパイプラインが提案されている。 VAEアプローチは、データが高次元の周囲空間に埋め込まれた低次元多様体上にあるとき、多様体の回復不良に悩まされることが知られている。本稿では, 合成データセット上での多様体回復を向上する多段階VAEアプローチを創薬分野に適用することを検討する。
論文参考訳（メタデータ） (2023-08-24T20:22:22Z)
MoleHD: Ultra-Low-Cost Drug Discovery using Hyperdimensional Computing [2.7462881838152913]
分子特性予測のための脳誘発超次元計算(HDC)に基づくMoleHDを提案する。 MoleHDは、ランダムスプリットとスキャフォールドスプリットで、平均3つのデータセットでROC-AUCスコアを達成している。私たちの知る限りでは、この方法が初めてHDCベースの薬物発見法である。
論文参考訳（メタデータ） (2021-06-05T13:33:21Z)
Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。 R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文参考訳（メタデータ） (2020-12-07T05:50:27Z)
MolTrans: Molecular Interaction Transformer for Drug Target Interaction Prediction [68.5766865583049]
薬物標的相互作用(DTI)予測は、シリコ薬物発見の基本的な課題である。近年、DTI予測におけるディープラーニングの進歩が期待されている。これらの制約に対処する分子間相互作用変換器(TransMol)を提案する。
論文参考訳（メタデータ） (2020-04-23T18:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。