論文の概要: Gene42: Long-Range Genomic Foundation Model With Dense Attention
- arxiv url: http://arxiv.org/abs/2503.16565v1
- Date: Thu, 20 Mar 2025 07:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:56.612925
- Title: Gene42: Long-Range Genomic Foundation Model With Dense Attention
- Title(参考訳): Gene42: 遠距離ゲノミクスモデル
- Authors: Kirill Vishniakov, Boulbaba Ben Amor, Engin Tekin, Nancy A. ElNaker, Karthik Viswanathan, Aleksandr Medvedev, Aahan Singh, Maryam Nadeem, Mohammad Amaan Sayeed, Praveenkumar Kanithi, Tiago Magalhaes, Natalia Vassilieva, Dwarikanath Mahapatra, Marco Pimentel, and Shadab Khan,
- Abstract要約: ゲノム基盤モデル(GFM)の新規ファミリーであるGene42を紹介する。
Gene42モデルはデコーダのみのアーキテクチャ(LLaMAスタイル)と密集した自己認識機構を使用している。
Gene42は、ゲノム学においてこのような長いコンテキスト長を扱うことができる最初の高密度アテンションモデルである。
- 参考スコア(独自算出の注目度): 39.22636278244394
- License:
- Abstract: We introduce Gene42, a novel family of Genomic Foundation Models (GFMs) designed to manage context lengths of up to 192,000 base pairs (bp) at a single-nucleotide resolution. Gene42 models utilize a decoder-only (LLaMA-style) architecture with a dense self-attention mechanism. Initially trained on fixed-length sequences of 4,096 bp, our models underwent continuous pretraining to extend the context length to 192,000 bp. This iterative extension allowed for the comprehensive processing of large-scale genomic data and the capture of intricate patterns and dependencies within the human genome. Gene42 is the first dense attention model capable of handling such extensive long context lengths in genomics, challenging state-space models that often rely on convolutional operators among other mechanisms. Our pretrained models exhibit notably low perplexity values and high reconstruction accuracy, highlighting their strong ability to model genomic data. Extensive experiments on various genomic benchmarks have demonstrated state-of-the-art performance across multiple tasks, including biotype classification, regulatory region identification, chromatin profiling prediction, variant pathogenicity prediction, and species classification. The models are publicly available at huggingface.co/inceptionai.
- Abstract(参考訳): 単一ヌクレオチド分解能で最大192,000塩基対 (bp) のコンテキスト長を管理するために設計された新規なゲノム基盤モデル(GFM)ファミリーであるGene42を紹介する。
Gene42モデルはデコーダのみのアーキテクチャ(LLaMAスタイル)と密集した自己認識機構を使用している。
最初は4,096bpの固定長シーケンスでトレーニングを行い、我々のモデルは文脈長を192,000bpに拡張するために連続事前訓練を行った。
この反復的拡張は、大規模なゲノムデータの包括的な処理と、ヒトゲノム内の複雑なパターンと依存関係のキャプチャを可能にした。
Gene42は、ゲノム学においてこのような長いコンテキスト長を扱うことができる最初の高密度アテンションモデルであり、畳み込み演算子にしばしば依存する状態空間モデルに挑戦する。
我々の事前訓練されたモデルは、明らかに低いパープレキシティ値と高い再構成精度を示し、ゲノムデータをモデル化する強力な能力を示している。
バイオタイプ分類、規制領域の同定、クロマチンプロファイリング予測、変異病原性予測、種分類など、さまざまなタスクで最先端のパフォーマンスが実証されている。
モデルはuggingface.co/inceptionaiで公開されている。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Does your model understand genes? A benchmark of gene properties for biological and text models [1.8931526394501432]
専門的な生物情報学データベースから収集した遺伝子特性に着目した。
これらのデータベースに基づいて、バイナリ、マルチラベル、マルチクラス分類タスクを含む数百のタスクを定義します。
本研究は, テキストベースモデルとタンパク質言語モデルが, ゲノム特性および制御機能タスクにおいて, 表現ベースモデルよりも優れていたことを示唆する。
論文 参考訳(メタデータ) (2024-12-05T11:14:01Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Genomic Interpreter: A Hierarchical Genomic Deep Neural Network with 1D
Shifted Window Transformer [4.059849656394191]
Genomic Interpreterはゲノムアッセイ予測のための新しいアーキテクチャである。
モデルはゲノムサイトの階層的依存関係を識別できる。
17K対の38,171のDNAセグメントを含むデータセットで評価される。
論文 参考訳(メタデータ) (2023-06-08T12:10:13Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。