論文の概要: BEND: Benchmarking DNA Language Models on biologically meaningful tasks
- arxiv url: http://arxiv.org/abs/2311.12570v3
- Date: Mon, 11 Mar 2024 09:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:20:25.638129
- Title: BEND: Benchmarking DNA Language Models on biologically meaningful tasks
- Title(参考訳): BEND:生物学的に意味のあるタスクに関するDNA言語モデルのベンチマーク
- Authors: Frederikke Isa Marin, Felix Teufel, Marc Horlacher, Dennis Madsen,
Dennis Pultz, Ole Winther, Wouter Boomsma
- Abstract要約: DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
- 参考スコア(独自算出の注目度): 7.35697293789605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The genome sequence contains the blueprint for governing cellular processes.
While the availability of genomes has vastly increased over the last decades,
experimental annotation of the various functional, non-coding and regulatory
elements encoded in the DNA sequence remains both expensive and challenging.
This has sparked interest in unsupervised language modeling of genomic DNA, a
paradigm that has seen great success for protein sequence data. Although
various DNA language models have been proposed, evaluation tasks often differ
between individual works, and might not fully recapitulate the fundamental
challenges of genome annotation, including the length, scale and sparsity of
the data. In this study, we introduce BEND, a Benchmark for DNA language
models, featuring a collection of realistic and biologically meaningful
downstream tasks defined on the human genome. We find that embeddings from
current DNA LMs can approach performance of expert methods on some tasks, but
only capture limited information about long-range features. BEND is available
at https://github.com/frederikkemarin/BEND.
- Abstract(参考訳): ゲノム配列は、細胞プロセスを管理するための青写真を含む。
ゲノムの入手は過去数十年で大幅に増加したが、DNA配列にコードされる様々な機能的、非コード的、規制的要素の実験的なアノテーションは高価かつ困難である。
これは、タンパク質配列データに大きな成功を収めたパラダイムであるゲノムDNAの教師なし言語モデルへの関心を喚起した。
様々なdna言語モデルが提案されているが、評価タスクは個々の作品によって異なり、データの長さ、スケール、スパース性など、ゲノムアノテーションの基本的な課題を完全には再現できない。
本研究では,ヒトゲノム上に定義された現実的で生物学的に意味のある下流タスクの集合を特徴とする,DNA言語モデルのベンチマークであるBENDを紹介する。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
BENDはhttps://github.com/frederikkemarin/BENDで入手できる。
関連論文リスト
- DNABERT-S: Learning Species-Aware DNA Embedding with Genome Foundation
Models [8.159258510270243]
DNABERT-SはDNAの組込みを専門とするゲノム基盤モデルである。
ミミクス(MI-Mix)は、ランダムに選択された層におけるDNA配列の隠蔽表現を混合し、これらの混合比率を出力層で認識・区別するようにモデルを訓練する。
18種類のデータセットの実証結果から,DNABERT-Sの顕著な性能が確認された。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.721343300148367]
3ギガ塩基(単一ハプロイド)のヒト基準ゲノム上にDNA読取を調整するための組込み検索タスクを提案する。
DNA-ESAは、250長の読みを3ギガ塩基(単倍体)のヒト基準ゲノムに合わせると97%正確である
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - Generative Language Models on Nucleotide Sequences of Human Genes [0.0]
本研究は,DNA配列解析のための自己回帰型生成言語モデルであるGPT-3の開発に焦点をあてる。
DNA配列全体を扱うことは、相当な計算資源なしでは難しいため、我々はより小さなスケールで研究を行うことに決めた。
まず、ほぼ完全に探索されていない問題を体系的に検討し、RNNが最善を尽くしたことを観察した。
パープレキシティ(perplexity)のような古典的な指標を超えた、現実的なタスクの使用がいかに重要かが観察される。
論文 参考訳(メタデータ) (2023-07-20T06:59:02Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Efficient Automation of Neural Network Design: A Survey on
Differentiable Neural Architecture Search [70.31239620427526]
微分可能なニューラルネットワーク探索(DNAS)は、ディープニューラルネットワークアーキテクチャの発見を自動化するトレンドのアプローチとして、急速に自らを強制した。
この増加は主に、最初の主要なDNAS法の一つであるDARTSの人気が原因である。
本総説では,DNASに特に焦点をあて,最近のアプローチを概観する。
論文 参考訳(メタデータ) (2023-04-11T13:15:29Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - SemanticCAP: Chromatin Accessibility Prediction Enhanced by Features
Learning from a Language Model [3.0643865202019698]
本稿では、ゲノムのアクセス可能な領域を特定するためのSemanticCAPという新しいソリューションを提案する。
遺伝子配列のコンテキストをモデル化する遺伝子モデルを導入し、遺伝子配列の効果的な表現を提供する。
公開ベンチマークによる他のシステムと比較すると,我々のモデルは性能が向上することが判明した。
論文 参考訳(メタデータ) (2022-04-05T11:47:58Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。