論文の概要: Does your model understand genes? A benchmark of gene properties for biological and text models
- arxiv url: http://arxiv.org/abs/2412.04075v1
- Date: Thu, 05 Dec 2024 11:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:08.047500
- Title: Does your model understand genes? A benchmark of gene properties for biological and text models
- Title(参考訳): あなたのモデルは遺伝子を理解しているか?生物学的およびテキストモデルのための遺伝子特性のベンチマーク
- Authors: Yoav Kan-Tor, Michael Morris Danziger, Eden Zohar, Matan Ninio, Yishai Shimoni,
- Abstract要約: 専門的な生物情報学データベースから収集した遺伝子特性に着目した。
これらのデータベースに基づいて、バイナリ、マルチラベル、マルチクラス分類タスクを含む数百のタスクを定義します。
本研究は, テキストベースモデルとタンパク質言語モデルが, ゲノム特性および制御機能タスクにおいて, 表現ベースモデルよりも優れていたことを示唆する。
- 参考スコア(独自算出の注目度): 1.8931526394501432
- License:
- Abstract: The application of deep learning methods, particularly foundation models, in biological research has surged in recent years. These models can be text-based or trained on underlying biological data, especially omics data of various types. However, comparing the performance of these models consistently has proven to be a challenge due to differences in training data and downstream tasks. To tackle this problem, we developed an architecture-agnostic benchmarking approach that, instead of evaluating the models directly, leverages entity representation vectors from each model and trains simple predictive models for each benchmarking task. This ensures that all types of models are evaluated using the same input and output types. Here we focus on gene properties collected from professionally curated bioinformatics databases. These gene properties are categorized into five major groups: genomic properties, regulatory functions, localization, biological processes, and protein properties. Overall, we define hundreds of tasks based on these databases, which include binary, multi-label, and multi-class classification tasks. We apply these benchmark tasks to evaluate expression-based models, large language models, protein language models, DNA-based models, and traditional baselines. Our findings suggest that text-based models and protein language models generally outperform expression-based models in genomic properties and regulatory functions tasks, whereas expression-based models demonstrate superior performance in localization tasks. These results should aid in the development of more informed artificial intelligence strategies for biological understanding and therapeutic discovery. To ensure the reproducibility and transparency of our findings, we have made the source code and benchmark data publicly accessible for further investigation and expansion at github.com/BiomedSciAI/gene-benchmark.
- Abstract(参考訳): 近年,生物研究における深層学習,特に基礎モデルの適用が急増している。
これらのモデルはテキストベースまたは基礎となる生物学的データ、特に様々なタイプのオミクスデータに基づいて訓練することができる。
しかし、トレーニングデータと下流タスクの違いにより、これらのモデルのパフォーマンスを一貫して比較することは困難であることが証明されている。
そこで我々は,モデルを直接評価する代わりに,各モデルからのエンティティ表現ベクトルを活用し,ベンチマークタスク毎に単純な予測モデルを訓練するアーキテクチャに依存しないベンチマーク手法を開発した。
これにより、すべてのモデルが同じ入力型と出力型を使って評価されることが保証される。
ここでは、専門家がキュレートしたバイオインフォマティクスデータベースから収集した遺伝子特性に焦点を当てる。
これらの遺伝子特性は、ゲノム特性、調節機能、局在化、生物学的過程、タンパク質特性の5つの主要なグループに分類される。
全体として、これらのデータベースに基づいて、バイナリ、マルチラベル、マルチクラス分類タスクを含む数百のタスクを定義します。
これらのベンチマークタスクを,表現ベースモデル,大規模言語モデル,タンパク質言語モデル,DNAベースモデル,従来のベースラインの評価に適用する。
テキストベースモデルとタンパク言語モデルは概ねゲノム特性および制御機能タスクにおいて表現ベースモデルよりも優れており、一方、表現ベースモデルはローカライズタスクにおいて優れた性能を示す。
これらの結果は、生物学的理解と治療発見のためのより情報のある人工知能戦略の開発に役立つだろう。
本研究の再現性と透明性を確保するため,github.com/BiomedSciAI/gene-benchmarkで,ソースコードとベンチマークデータを公開し,さらなる調査と拡張を行った。
関連論文リスト
- Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - SpanSeq: Similarity-based sequence data splitting method for improved development and assessment of deep learning projects [0.0]
計算生物学におけるディープラーニングモデルは、開発中に使用されるデータのプールからノイズの多い偏差を学ぶ傾向にある。
利用可能なデータを開発(トレイン/バリデーション)とテストセットにランダムに分割することが一般的である。
本稿では,ほとんどの生物学的シーケンスにスケール可能な機械学習のためのデータベース分割手法であるSpanSeqを提案する。
論文 参考訳(メタデータ) (2024-02-22T12:15:05Z) - Exploring the Effectiveness of Instruction Tuning in Biomedical Language
Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。
約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-12-31T20:02:10Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - EPICURE Ensemble Pretrained Models for Extracting Cancer Mutations from
Literature [12.620782629498814]
EPICUREは、条件付きランダムフィールドパターン層とスパン予測パターン層を備え、テキストからがんの突然変異を抽出するアンサンブル事前訓練モデルである。
3つのベンチマークデータセットの実験結果から,ベースラインモデルと比較して競争力のある結果が得られた。
論文 参考訳(メタデータ) (2021-06-11T09:08:15Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。