論文の概要: Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction
- arxiv url: http://arxiv.org/abs/2205.11279v1
- Date: Mon, 23 May 2022 12:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 20:22:11.411716
- Title: Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction
- Title(参考訳): Tyger: 分子特性予測のためのタスクタイプジェネリックアクティブラーニング
- Authors: Kuangqi Zhou, Kaixin Wang, Jiashi Feng, Jian Tang, Tingyang Xu,
Xinchao Wang
- Abstract要約: 分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
- 参考スコア(独自算出の注目度): 121.97742787439546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to accurately predict the properties of molecules is an essential problem
in AI-driven drug discovery, which generally requires a large amount of
annotation for training deep learning models. Annotating molecules, however, is
quite costly because it requires lab experiments conducted by experts. To
reduce annotation cost, deep Active Learning (AL) methods are developed to
select only the most representative and informative data for annotating.
However, existing best deep AL methods are mostly developed for a single type
of learning task (e.g., single-label classification), and hence may not perform
well in molecular property prediction that involves various task types. In this
paper, we propose a Task-type-generic active learning framework (termed Tyger)
that is able to handle different types of learning tasks in a unified manner.
The key is to learn a chemically-meaningful embedding space and perform active
selection fully based on the embeddings, instead of relying on
task-type-specific heuristics (e.g., class-wise prediction probability) as done
in existing works. Specifically, for learning the embedding space, we
instantiate a querying module that learns to translate molecule graphs into
corresponding SMILES strings. Furthermore, to ensure that samples selected from
the space are both representative and informative, we propose to shape the
embedding space by two learning objectives, one based on domain knowledge and
the other leveraging feedback from the task learner (i.e., model that performs
the learning task at hand). We conduct extensive experiments on benchmark
datasets of different task types. Experimental results show that Tyger
consistently achieves high AL performance on molecular property prediction,
outperforming baselines by a large margin. We also perform ablative experiments
to verify the effectiveness of each component in Tyger.
- Abstract(参考訳): 分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題であり、一般的にはディープラーニングモデルのトレーニングに大量のアノテーションを必要とする。
しかし、アノテーティング分子は専門家による実験を必要とするため、かなりコストがかかる。
アノテーションのコストを削減するため,最も代表的で情報性の高いデータのみをアノテートするためのDeep Active Learning (AL)法を開発した。
しかし、既存の最良深層al法は主に単一の学習タスク(例えば単一ラベル分類)のために開発されており、様々なタスクタイプを含む分子特性予測ではうまく機能しない可能性がある。
本稿では,異なる種類の学習タスクを統一的に処理可能なタスク型ジェネリックアクティブラーニングフレームワーク(tyger)を提案する。
鍵となるのは、化学的に有意な埋め込み空間を学習し、既存の作業のようにタスクタイプ固有のヒューリスティック(例えばクラスワイド予測確率)に頼るのではなく、埋め込みに基づいて能動的選択を行うことである。
具体的には、埋め込み空間を学習するために、分子グラフを対応するSMILES文字列に変換することを学ぶクエリモジュールをインスタンス化する。
さらに,空間から選択したサンプルが代表的かつ情報的であることを保証するため,ドメイン知識に基づく2つの学習目標と,タスク学習者からのフィードバック(例えば,手作業で学習を行うモデル)による埋め込み空間の形成を提案する。
異なるタスクタイプのベンチマークデータセットについて広範な実験を行う。
実験の結果、tygerは分子特性予測において一貫して高いal性能を達成し、ベースラインを高いマージンで上回った。
また,tygerの各コンポーネントの有効性を検証するためのアブレーション実験を行った。
関連論文リスト
- Active Learning to Guide Labeling Efforts for Question Difficulty Estimation [1.0514231683620516]
トランスフォーマーベースのニューラルネットワークは、主に教師なしの手法ではなく、教師なし学習における独立した研究によって、最先端のパフォーマンスを達成する。
この研究は、教師付きヒューマン・イン・ザ・ループアプローチであるQDEのアクティブ・ラーニングを探求することで、研究ギャップを埋める。
PowerVarianceの取得によるアクティブな学習は、トレーニングデータの10%だけをラベル付けした後、完全に教師されたモデルに近いパフォーマンスを達成することを示す実験である。
論文 参考訳(メタデータ) (2024-09-14T02:02:42Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - TAAL: Test-time Augmentation for Active Learning in Medical Image
Segmentation [7.856339385917824]
本稿では,セグメンテーションのための半教師付きアクティブラーニング手法であるTAAL(Test-time Augmentation for Active Learning)を提案する。
以上の結果から,TAALは既存のベースライン法よりも,完全教師付きと半教師付きの両方で優れていることが示された。
論文 参考訳(メタデータ) (2023-01-16T22:19:41Z) - Structured Multi-task Learning for Molecular Property Prediction [30.77287550003828]
本稿では,タスク間の関係グラフが利用可能な新しい環境下で,分子特性予測のためのマルチタスク学習について検討する。
本研究では,その関係グラフに状態グラフニューラルネットワーク(SGNN)を適用し,タスク表現をモデル化する。
エネルギーベースモデル (EBM) を用いた構造予測を, ノイズコントラスト推定 (NCE) 手法により効率的に学習できる。
論文 参考訳(メタデータ) (2022-02-22T20:31:23Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Learning Purified Feature Representations from Task-irrelevant Labels [18.967445416679624]
本稿では,タスク関連ラベルから抽出したタスク関連機能を利用したPurifiedLearningという新しい学習フレームワークを提案する。
本研究は,PurifiedLearningの有効性を実証する,ソリッド理論解析と広範囲な実験に基づいている。
論文 参考訳(メタデータ) (2021-02-22T12:50:49Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。