論文の概要: COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models
- arxiv url: http://arxiv.org/abs/2412.10347v1
- Date: Fri, 13 Dec 2024 18:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:30.530559
- Title: COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models
- Title(参考訳): COMET: 総合的生物マルチオミクス評価課題と言語モデルのためのベンチマーク
- Authors: Yuchen Ren, Wenwei Han, Qianyuan Zhang, Yining Tang, Weiqiang Bai, Yuchen Cai, Lifeng Qiao, Hao Jiang, Dong Yuan, Tao Chen, Siqi Sun, Pan Tan, Wanli Ouyang, Nanqing Dong, Xinzhu Ma, Peng Ye,
- Abstract要約: COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
- 参考スコア(独自算出の注目度): 56.81513758682858
- License:
- Abstract: As key elements within the central dogma, DNA, RNA, and proteins play crucial roles in maintaining life by guaranteeing accurate genetic expression and implementation. Although research on these molecules has profoundly impacted fields like medicine, agriculture, and industry, the diversity of machine learning approaches-from traditional statistical methods to deep learning models and large language models-poses challenges for researchers in choosing the most suitable models for specific tasks, especially for cross-omics and multi-omics tasks due to the lack of comprehensive benchmarks. To address this, we introduce the first comprehensive multi-omics benchmark COMET (Benchmark for Biological COmprehensive Multi-omics Evaluation Tasks and Language Models), designed to evaluate models across single-omics, cross-omics, and multi-omics tasks. First, we curate and develop a diverse collection of downstream tasks and datasets covering key structural and functional aspects in DNA, RNA, and proteins, including tasks that span multiple omics levels. Then, we evaluate existing foundational language models for DNA, RNA, and proteins, as well as the newly proposed multi-omics method, offering valuable insights into their performance in integrating and analyzing data from different biological modalities. This benchmark aims to define critical issues in multi-omics research and guide future directions, ultimately promoting advancements in understanding biological processes through integrated and different omics data analysis.
- Abstract(参考訳): 中枢ドグマの主要な要素として、DNA、RNA、タンパク質は、正確な遺伝子の発現と実装を保証することによって生命維持に重要な役割を担っている。
これらの分子の研究は医学、農業、産業といった分野に大きな影響を与えてきたが、従来の統計手法からディープラーニングモデルや大規模言語モデルまで、機械学習のアプローチの多様性は、研究者が特定のタスク、特に総合的なベンチマークの欠如により、最も適切なモデルを選択する際の課題となっている。
そこで本研究では, 総合的マルチオミクスベンチマーク COMET (Benchmark for Biological COmprehensive Multi-omics Evaluation Tasks and Language Models) を導入し, シングルオミクス, クロスオミクス, マルチオミクスタスクのモデルを評価する。
まず、複数のオミクスレベルにまたがるタスクを含む、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価し,生物の異なるモダリティからのデータの統合と解析におけるそれらの性能について貴重な知見を提供する。
このベンチマークは、マルチオミクス研究における重要な問題を定義し、将来的な方向性を導き、最終的には、統合された異なるオミクスデータ分析による生物学的プロセス理解の進歩を促進することを目的としている。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - Large Language Models for Bioinformatics [58.892165394487414]
本調査はバイオインフォマティクス特化言語モデル(BioLM)の進化,分類,特徴の識別に焦点をあてる。
疾患診断, 薬物発見, ワクチン開発などの重要な分野において, バイオフィルムの幅広い応用について検討する。
データプライバシやセキュリティ上の問題,解釈可能性の問題,トレーニングデータやモデル出力のバイアス,ドメイン適応複雑性など,BioLMに固有の重要な課題や制限を特定します。
論文 参考訳(メタデータ) (2025-01-10T01:43:05Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.24434823694833652]
MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。