論文の概要: Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models
- arxiv url: http://arxiv.org/abs/2412.19191v1
- Date: Thu, 26 Dec 2024 12:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:35.714746
- Title: Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models
- Title(参考訳): 生物学教育:大規模言語モデルの能力理解のためのデータセットとベンチマーク
- Authors: Haonan He, Yuchen Ren, Yining Tang, Ziyang Xu, Junxian Li, Minghao Yang, Di Zhang, Dong Yuan, Tao Chen, Shufei Zhang, Yuqiang Li, Nanqing Dong, Wanli Ouyang, Dongzhan Zhou, Peng Ye,
- Abstract要約: 本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
- 参考スコア(独自算出の注目度): 51.316001071698224
- License:
- Abstract: Large language models have already demonstrated their formidable capabilities in general domains, ushering in a revolutionary transformation. However, exploring and exploiting the extensive knowledge of these models to comprehend multi-omics biology remains underexplored. To fill this research gap, we first introduce Biology-Instructions, the first large-scale multi-omics biological sequences-related instruction-tuning dataset including DNA, RNA, proteins, and multi-molecules, designed to bridge the gap between large language models (LLMs) and complex biological sequences-related tasks. This dataset can enhance the versatility of LLMs by integrating diverse biological sequenced-based prediction tasks with advanced reasoning capabilities, while maintaining conversational fluency. Additionally, we reveal significant performance limitations in even state-of-the-art LLMs on biological sequence-related multi-omics tasks without specialized pre-training and instruction-tuning. We further develop a strong baseline called ChatMultiOmics with a novel three-stage training pipeline, demonstrating the powerful ability to understand biology by using Biology-Instructions. Biology-Instructions and ChatMultiOmics are publicly available and crucial resources for enabling more effective integration of LLMs with multi-omics sequence analysis.
- Abstract(参考訳): 大規模な言語モデルは、革命的な変革を後押しして、その強大な能力を一般的なドメインですでに実証している。
しかし、これらのモデルの広範な知識を探索し、活用してマルチオミクスの生物学を理解することは、まだ未解明のままである。
この研究のギャップを埋めるために、我々はまず、DNA、RNA、タンパク質、マルチ分子を含む、最初の大規模生物配列に関連する命令チューニングデータセットであるBiology-Instructionsを導入し、大規模言語モデル(LLM)と複雑な生物学的配列関連タスクのギャップを埋めるように設計された。
このデータセットは、多様な生物学的配列に基づく予測タスクを高度な推論能力と統合し、会話の流速を維持しながらLLMの汎用性を高めることができる。
さらに,生物配列関連マルチオミクスタスクにおいて,事前学習や指導訓練を行なわずに,最先端のLLMでも大幅な性能制限が明らかにされた。
さらに,ChatMultiOmicsと呼ばれる3段階のトレーニングパイプラインを新たに開発した。
生物命令とChatMultiOmicsは、LLMとマルチオミクスシーケンス解析とのより効果的な統合を可能にするために、公開され、重要なリソースである。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - BSM: Small but Powerful Biological Sequence Model for Genes and Proteins [6.6055625629542085]
小型ながら強力な混合モード生物配列基盤モデルであるBSMを導入する。
RefSeq、Gene Related Sequences、およびWebから生物学的シークエンスをインターリーブした3種類のデータに基づいてトレーニングされている。
学習効率とクロスモーダル表現を著しく向上させ、非モーダルデータにのみ訓練されたモデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-15T11:12:28Z) - Multimodal Large Language Models for Bioimage Analysis [39.120941702559726]
MLLM(Multimodal Large Language Models)は、理解、分析、推論、一般化など、創発的な能力を示す。
これらの能力により、MLLMは生物学的画像や様々なモダリティによって得られたデータから複雑な情報を抽出することを約束する。
MLLMの開発は、生物学研究における人間の研究者を増強するためのインテリジェントアシスタントやエージェントとしての役割において、公約が増していることを示している。
論文 参考訳(メタデータ) (2024-07-29T08:21:25Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。