論文の概要: InstructBio: A Large-scale Semi-supervised Learning Paradigm for
Biochemical Problems
- arxiv url: http://arxiv.org/abs/2304.03906v2
- Date: Fri, 14 Apr 2023 11:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 15:58:42.137161
- Title: InstructBio: A Large-scale Semi-supervised Learning Paradigm for
Biochemical Problems
- Title(参考訳): InstructBio: バイオケミカル問題のための大規模半教師付き学習パラダイム
- Authors: Fang Wu, Huiling Qin, Siyuan Li, Stan Z. Li, Xianyuan Zhan, Jinbo Xu
- Abstract要約: InstructMolは、ラベルなし例をうまく活用するための半教師付き学習アルゴリズムである。
InstructBioは分子モデルの一般化能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 38.57333125315448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of artificial intelligence for science, it is consistently an
essential challenge to face a limited amount of labeled data for real-world
problems. The prevailing approach is to pretrain a powerful task-agnostic model
on a large unlabeled corpus but may struggle to transfer knowledge to
downstream tasks. In this study, we propose InstructMol, a semi-supervised
learning algorithm, to take better advantage of unlabeled examples. It
introduces an instructor model to provide the confidence ratios as the
measurement of pseudo-labels' reliability. These confidence scores then guide
the target model to pay distinct attention to different data points, avoiding
the over-reliance on labeled data and the negative influence of incorrect
pseudo-annotations. Comprehensive experiments show that InstructBio
substantially improves the generalization ability of molecular models, in not
only molecular property predictions but also activity cliff estimations,
demonstrating the superiority of the proposed method. Furthermore, our evidence
indicates that InstructBio can be equipped with cutting-edge pretraining
methods and used to establish large-scale and task-specific pseudo-labeled
molecular datasets, which reduces the predictive errors and shortens the
training process. Our work provides strong evidence that semi-supervised
learning can be a promising tool to overcome the data scarcity limitation and
advance molecular representation learning.
- Abstract(参考訳): 科学のための人工知能の分野では、現実世界の問題に対して限られた量のラベル付きデータに直面することは、一貫して重要な課題である。
一般的なアプローチは、大きなラベルのないコーパスで強力なタスク非依存モデルを事前学習するが、知識を下流タスクに移すのに苦労する可能性がある。
本研究では,ラベルなしの例をうまく活用するために,半教師付き学習アルゴリズムであるInstructMolを提案する。
疑似ラベルの信頼性の測定として信頼性比を提供するインストラクターモデルを導入する。
これらの信頼度スコアは、異なるデータポイントに異なる注意を払うようターゲットモデルに誘導し、ラベル付きデータへの過度な依存や誤った擬似注釈の影響を避ける。
包括的実験により,InstructBioは分子モデルの一般化能力を大幅に向上し,分子特性予測だけでなく,活性崖の推定も向上し,提案手法の優位性を示した。
さらに,instructbioは最先端の事前学習法を備え,大規模かつタスク固有の疑似ラベル付き分子データセットの構築に利用可能であり,予測誤差を低減し,トレーニングプロセスを短縮できることを示す。
我々の研究は、半教師付き学習がデータ不足の限界を克服し、分子表現学習を進めるための有望なツールであることを示す強力な証拠を提供する。
関連論文リスト
- Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - TwinBooster: Synergising Large Language Models with Barlow Twins and
Gradient Boosting for Enhanced Molecular Property Prediction [0.0]
本研究では, 微調整された大規模言語モデルを用いて, テキスト情報に基づく生物学的アッセイを統合する。
このアーキテクチャは、測定情報と分子指紋の両方を使用して、真の分子情報を抽出する。
TwinBoosterは最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の性質の予測を可能にする。
論文 参考訳(メタデータ) (2024-01-09T10:36:20Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Embracing assay heterogeneity with neural processes for markedly
improved bioactivity predictions [0.276240219662896]
リガンドの生物活性を予測することは、コンピュータ支援薬物発見において最も困難かつ最も重要な課題の1つである。
長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一である。
異種アッセイ間の情報シナジーを利用した階層型メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:26:58Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Uncertainty-Aware Deep Co-training for Semi-supervised Medical Image
Segmentation [4.935055133266873]
本研究では,モデルが意図的に領域を学習するための新しい不確実性認識方式を提案する。
具体的には,不確実性マップを得るためにモンテカルロサンプリングを推定法として利用する。
後ろ向きのプロセスでは、ネットワークの収束を加速するために、教師なしの損失と教師なしの損失を共同で処理する。
論文 参考訳(メタデータ) (2021-11-23T03:26:24Z) - Combating small molecule aggregation with machine learning [0.0]
我々は,小コロイド凝集分子(SCAMs)に自信と知性を持ってフラグを付けるベスポーク機械学習ツールを提案する。
我々のデータは、詐欺を予測するための機械学習の先例のない有用性を示し、困難なサンプル外検証において正しい予測の80%を達成する。
論文 参考訳(メタデータ) (2021-05-01T14:41:01Z) - Deep Semi-supervised Metric Learning with Dual Alignment for Cervical
Cancer Cell Detection [49.78612417406883]
子宮頸癌細胞検出のための新しい半教師付き深度測定法を提案する。
私たちのモデルは、埋め込みメトリック空間を学習し、提案レベルとプロトタイプレベルの両方でセマンティック機能の二重アライメントを行います。
本研究は,240,860個の頸部細胞画像からなる半監督型頸部がん細胞検出のための大規模データセットを初めて構築した。
論文 参考訳(メタデータ) (2021-04-07T17:11:27Z) - Extracting Chemical-Protein Interactions via Calibrated Deep Neural
Network and Self-training [0.8376091455761261]
データ不確実性を推定し、信頼性を向上させるため、ディープラーニングモデルに"校正"技術が適用されている。
本研究では, 化学物質-タンパク質相互作用を抽出するために, 不確実性情報とキャリブレーション手法を取り入れたDNNベースの手法を提案する。
我々の手法は,従来の手法よりも高い校正能力を維持しつつ,Biocreative VI ChemProtタスクに関して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-11-04T10:14:31Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。