論文の概要: COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models
- arxiv url: http://arxiv.org/abs/2412.10347v1
- Date: Fri, 13 Dec 2024 18:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:30.530559
- Title: COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models
- Title(参考訳): COMET: 総合的生物マルチオミクス評価課題と言語モデルのためのベンチマーク
- Authors: Yuchen Ren, Wenwei Han, Qianyuan Zhang, Yining Tang, Weiqiang Bai, Yuchen Cai, Lifeng Qiao, Hao Jiang, Dong Yuan, Tao Chen, Siqi Sun, Pan Tan, Wanli Ouyang, Nanqing Dong, Xinzhu Ma, Peng Ye,
- Abstract要約: COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
- 参考スコア(独自算出の注目度): 56.81513758682858
- License:
- Abstract: As key elements within the central dogma, DNA, RNA, and proteins play crucial roles in maintaining life by guaranteeing accurate genetic expression and implementation. Although research on these molecules has profoundly impacted fields like medicine, agriculture, and industry, the diversity of machine learning approaches-from traditional statistical methods to deep learning models and large language models-poses challenges for researchers in choosing the most suitable models for specific tasks, especially for cross-omics and multi-omics tasks due to the lack of comprehensive benchmarks. To address this, we introduce the first comprehensive multi-omics benchmark COMET (Benchmark for Biological COmprehensive Multi-omics Evaluation Tasks and Language Models), designed to evaluate models across single-omics, cross-omics, and multi-omics tasks. First, we curate and develop a diverse collection of downstream tasks and datasets covering key structural and functional aspects in DNA, RNA, and proteins, including tasks that span multiple omics levels. Then, we evaluate existing foundational language models for DNA, RNA, and proteins, as well as the newly proposed multi-omics method, offering valuable insights into their performance in integrating and analyzing data from different biological modalities. This benchmark aims to define critical issues in multi-omics research and guide future directions, ultimately promoting advancements in understanding biological processes through integrated and different omics data analysis.
- Abstract(参考訳): 中枢ドグマの主要な要素として、DNA、RNA、タンパク質は、正確な遺伝子の発現と実装を保証することによって生命維持に重要な役割を担っている。
これらの分子の研究は医学、農業、産業といった分野に大きな影響を与えてきたが、従来の統計手法からディープラーニングモデルや大規模言語モデルまで、機械学習のアプローチの多様性は、研究者が特定のタスク、特に総合的なベンチマークの欠如により、最も適切なモデルを選択する際の課題となっている。
そこで本研究では, 総合的マルチオミクスベンチマーク COMET (Benchmark for Biological COmprehensive Multi-omics Evaluation Tasks and Language Models) を導入し, シングルオミクス, クロスオミクス, マルチオミクスタスクのモデルを評価する。
まず、複数のオミクスレベルにまたがるタスクを含む、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価し,生物の異なるモダリティからのデータの統合と解析におけるそれらの性能について貴重な知見を提供する。
このベンチマークは、マルチオミクス研究における重要な問題を定義し、将来的な方向性を導き、最終的には、統合された異なるオミクスデータ分析による生物学的プロセス理解の進歩を促進することを目的としている。
関連論文リスト
- Artificial Intelligence for Microbiology and Microbiome Research [3.4014872469607695]
機械学習とディープラーニングの応用を通して、ブレイクスルーを経験する微生物学と微生物研究。
このレビューでは、微生物学および微生物学研究に適したAI駆動アプローチの概要を概観する。
論文 参考訳(メタデータ) (2024-11-02T01:03:43Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.24434823694833652]
MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - HeMeNet: Heterogeneous Multichannel Equivariant Network for Protein Multitask Learning [33.972536394058004]
本稿では,3次元タンパク質構造の入力に基づいて,複数のタスクを協調的に処理するニューラルネットワークモデルを提案する。
特に,我々はまず,Protein-MTと呼ばれる標準構造に基づくマルチタスクベンチマークを構築した。
そこで我々は,HeMeNet(Heterogeneous Multi Channel Equivariant Network)と呼ばれる,マルチタスク学習のための新しいグラフニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2024-04-02T06:53:45Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Towards Multi-Objective High-Dimensional Feature Selection via
Evolutionary Multitasking [63.91518180604101]
本稿では,高次元特徴選択問題,すなわちMO-FSEMTのための新しいEMTフレームワークを開発する。
タスク固有の知識伝達機構は、各タスクの利点情報を活用するように設計され、高品質なソリューションの発見と効果的な伝達を可能にする。
論文 参考訳(メタデータ) (2024-01-03T06:34:39Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。