論文の概要: InstructBio: A Large-scale Semi-supervised Learning Paradigm for
Biochemical Problems
- arxiv url: http://arxiv.org/abs/2304.03906v1
- Date: Sat, 8 Apr 2023 04:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:01:18.214637
- Title: InstructBio: A Large-scale Semi-supervised Learning Paradigm for
Biochemical Problems
- Title(参考訳): InstructBio: バイオケミカル問題のための大規模半教師付き学習パラダイム
- Authors: Fang Wu, Huiling Qin, Wenhao Gao, Siyuan Li, Connor W. Coley, Stan Z.
Li, Xianyuan Zhan, Jinbo Xu
- Abstract要約: InstructMolは、ラベルなし例をうまく活用するための半教師付き学習アルゴリズムである。
InstructBioは分子モデルの一般化能力を大幅に改善する。
- 参考スコア(独自算出の注目度): 36.415950795338105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of artificial intelligence for science, it is consistently an
essential challenge to face a limited amount of labeled data for real-world
problems. The prevailing approach is to pretrain a powerful task-agnostic model
on a large unlabeled corpus but may struggle to transfer knowledge to
downstream tasks. In this study, we propose InstructMol, a semi-supervised
learning algorithm, to take better advantage of unlabeled examples. It
introduces an instructor model to provide the confidence ratios as the
measurement of pseudo-labels' reliability. These confidence scores then guide
the target model to pay distinct attention to different data points, avoiding
the over-reliance on labeled data and the negative influence of incorrect
pseudo-annotations. Comprehensive experiments show that InstructBio
substantially improves the generalization ability of molecular models, in not
only molecular property predictions but also activity cliff estimations,
demonstrating the superiority of the proposed method. Furthermore, our evidence
indicates that InstructBio can be equipped with cutting-edge pretraining
methods and used to establish large-scale and task-specific pseudo-labeled
molecular datasets, which reduces the predictive errors and shortens the
training process. Our work provides strong evidence that semi-supervised
learning can be a promising tool to overcome the data scarcity limitation and
advance molecular representation learning.
- Abstract(参考訳): 科学のための人工知能の分野では、現実世界の問題に対して限られた量のラベル付きデータに直面することは、一貫して重要な課題である。
一般的なアプローチは、大きなラベルのないコーパスで強力なタスク非依存モデルを事前学習するが、知識を下流タスクに移すのに苦労する可能性がある。
本研究では,ラベルなしの例をうまく活用するために,半教師付き学習アルゴリズムであるInstructMolを提案する。
疑似ラベルの信頼性の測定として信頼性比を提供するインストラクターモデルを導入する。
これらの信頼度スコアは、異なるデータポイントに異なる注意を払うようターゲットモデルに誘導し、ラベル付きデータへの過度な依存や誤った擬似注釈の影響を避ける。
包括的実験により,InstructBioは分子モデルの一般化能力を大幅に向上し,分子特性予測だけでなく,活性崖の推定も向上し,提案手法の優位性を示した。
さらに,instructbioは最先端の事前学習法を備え,大規模かつタスク固有の疑似ラベル付き分子データセットの構築に利用可能であり,予測誤差を低減し,トレーニングプロセスを短縮できることを示す。
我々の研究は、半教師付き学習がデータ不足の限界を克服し、分子表現学習を進めるための有望なツールであることを示す強力な証拠を提供する。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - TwinBooster: Synergising Large Language Models with Barlow Twins and
Gradient Boosting for Enhanced Molecular Property Prediction [0.0]
本研究では, 微調整された大規模言語モデルを用いて, テキスト情報に基づく生物学的アッセイを統合する。
このアーキテクチャは、測定情報と分子指紋の両方を使用して、真の分子情報を抽出する。
TwinBoosterは最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の性質の予測を可能にする。
論文 参考訳(メタデータ) (2024-01-09T10:36:20Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Embracing assay heterogeneity with neural processes for markedly
improved bioactivity predictions [0.276240219662896]
リガンドの生物活性を予測することは、コンピュータ支援薬物発見において最も困難かつ最も重要な課題の1つである。
長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一である。
異種アッセイ間の情報シナジーを利用した階層型メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:26:58Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Uncertainty-Aware Deep Co-training for Semi-supervised Medical Image
Segmentation [4.935055133266873]
本研究では,モデルが意図的に領域を学習するための新しい不確実性認識方式を提案する。
具体的には,不確実性マップを得るためにモンテカルロサンプリングを推定法として利用する。
後ろ向きのプロセスでは、ネットワークの収束を加速するために、教師なしの損失と教師なしの損失を共同で処理する。
論文 参考訳(メタデータ) (2021-11-23T03:26:24Z) - Extracting Chemical-Protein Interactions via Calibrated Deep Neural
Network and Self-training [0.8376091455761261]
データ不確実性を推定し、信頼性を向上させるため、ディープラーニングモデルに"校正"技術が適用されている。
本研究では, 化学物質-タンパク質相互作用を抽出するために, 不確実性情報とキャリブレーション手法を取り入れたDNNベースの手法を提案する。
我々の手法は,従来の手法よりも高い校正能力を維持しつつ,Biocreative VI ChemProtタスクに関して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-11-04T10:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。