論文の概要: BioT5+: Towards Generalized Biological Understanding with IUPAC
Integration and Multi-task Tuning
- arxiv url: http://arxiv.org/abs/2402.17810v1
- Date: Tue, 27 Feb 2024 12:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:24:22.355997
- Title: BioT5+: Towards Generalized Biological Understanding with IUPAC
Integration and Multi-task Tuning
- Title(参考訳): BioT5+: IUPAC統合とマルチタスクチューニングによる汎用生物学的理解を目指して
- Authors: Qizhi Pei, Lijun Wu, Kaiyuan Gao, Xiaozhuan Liang, Yin Fang, Jinhua
Zhu, Shufang Xie, Tao Qin, Rui Yan
- Abstract要約: 本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善するための新しい数値トークン化技術など、いくつかの新しい特徴が含まれている。
- 参考スコア(独自算出の注目度): 80.83209995941576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research trends in computational biology have increasingly focused on
integrating text and bio-entity modeling, especially in the context of
molecules and proteins. However, previous efforts like BioT5 faced challenges
in generalizing across diverse tasks and lacked a nuanced understanding of
molecular structures, particularly in their textual representations (e.g.,
IUPAC). This paper introduces BioT5+, an extension of the BioT5 framework,
tailored to enhance biological research and drug discovery. BioT5+ incorporates
several novel features: integration of IUPAC names for molecular understanding,
inclusion of extensive bio-text and molecule data from sources like bioRxiv and
PubChem, the multi-task instruction tuning for generality across tasks, and a
novel numerical tokenization technique for improved processing of numerical
data. These enhancements allow BioT5+ to bridge the gap between molecular
representations and their textual descriptions, providing a more holistic
understanding of biological entities, and largely improving the grounded
reasoning of bio-text and bio-sequences. The model is pre-trained and
fine-tuned with a large number of experiments, including \emph{3 types of
problems (classification, regression, generation), 15 kinds of tasks, and 21
total benchmark datasets}, demonstrating the remarkable performance and
state-of-the-art results in most cases. BioT5+ stands out for its ability to
capture intricate relationships in biological data, thereby contributing
significantly to bioinformatics and computational biology. Our code is
available at \url{https://github.com/QizhiPei/BioT5}.
- Abstract(参考訳): 計算生物学における最近の研究動向は、特に分子やタンパク質の文脈において、テキストとバイオエンタリティモデリングの統合に焦点を当てている。
しかし、BioT5のような以前の取り組みは、様々なタスクをまたいだ一般化の課題に直面し、特にテキスト表現(IUPACなど)において、分子構造に関する微妙な理解が欠如していた。
本稿では,BioT5フレームワークの拡張であるBioT5+を紹介する。
BioT5+ には、分子理解のための IUPAC 名の統合、bioRxiv や PubChem などのソースからの広範なバイオテキストと分子データの統合、タスク間の汎用性のためのマルチタスク命令チューニング、数値データの処理を改善するための新しい数値トークン化技術など、いくつかの新しい特徴が含まれている。
これらの拡張により、BioT5+は、分子表現とそれらのテキスト記述のギャップを埋め、生物学的実体をより包括的に理解し、バイオテキストとバイオシーケンスの基底的推論を大幅に改善することができる。
モデルは事前訓練され、多数の実験で微調整されており、例えば \emph{3 タイプの問題(分類、回帰、生成)、15種類のタスク、21種類のベンチマークデータセットなどがあり、ほとんどのケースで顕著なパフォーマンスと最先端の結果を示している。
BioT5+は、生物学的データの複雑な関係を捉え、バイオインフォマティクスや計算生物学に大きく貢献する。
我々のコードは \url{https://github.com/QizhiPei/BioT5} で入手できる。
関連論文リスト
- InstructBioMol: Advancing Biomolecule Understanding and Design Following Human Instructions [32.38318676313486]
InstructBioMolは自然言語と生体分子を橋渡しするように設計されている。
マルチモーダルな生体分子を入力として統合し、研究者が自然言語で設計目標を明確にすることができる。
結合親和性は10%向上し、ESPスコア70.4に達する酵素を設計することができる。
論文 参考訳(メタデータ) (2024-10-10T13:45:56Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Know2BIO: A Comprehensive Dual-View Benchmark for Evolving Biomedical
Knowledge Graphs [45.53337864477857]
Know2BIOは、バイオメディカルドメインのための汎用的なヘテロジニアスKGベンチマークである。
30の多様なソースからのデータを統合し、11のバイオメディカルカテゴリにわたる複雑な関係をキャプチャする。
Know2BIOは、バイオメディカルサイエンスの最新の知識を反映して、ユーザー指向の自動更新を行うことができる。
論文 参考訳(メタデータ) (2023-10-05T00:34:56Z) - BioAug: Conditional Generation based Data Augmentation for Low-Resource
Biomedical NER [52.79573512427998]
低リソースBioNERのための新しいデータ拡張フレームワークであるBioAugを紹介する。
BioAugは、選択的マスキングと知識増強に基づく新しいテキスト再構築タスクを解決するために訓練されている。
5つのベンチマークBioNERデータセットに対するBioAugの有効性を示す。
論文 参考訳(メタデータ) (2023-05-18T02:04:38Z) - BioGPT: Generative Pre-trained Transformer for Biomedical Text
Generation and Mining [140.61707108174247]
本稿では,大規模生物医学文献に基づいて事前学習したドメイン固有生成型トランスフォーマー言語モデルであるBioGPTを提案する。
BC5CDRでは44.98%、38.42%、40.76%のF1スコア、KD-DTIとDDIの関係抽出タスクでは78.2%、PubMedQAでは78.2%の精度が得られた。
論文 参考訳(メタデータ) (2022-10-19T07:17:39Z) - SciFive: a text-to-text transformer model for biomedical literature [0.9482369543628087]
本稿では,大規模なバイオメディカルコーパスで事前学習したドメイン固有T5モデルであるSciFiveを紹介する。
本研究は,より困難なテキスト生成タスクの探索と,本領域における新しい手法の開発を支援する。
論文 参考訳(メタデータ) (2021-05-28T06:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。