論文の概要: GENERator: A Long-Context Generative Genomic Foundation Model
- arxiv url: http://arxiv.org/abs/2502.07272v2
- Date: Thu, 06 Mar 2025 05:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:55:20.898184
- Title: GENERator: A Long-Context Generative Genomic Foundation Model
- Title(参考訳): generator: 長期的生成ゲノミクス基盤モデル
- Authors: Wei Wu, Qiuyi Li, Mingyang Li, Kun Fu, Fuli Feng, Jieping Ye, Hui Xiong, Zheng Wang,
- Abstract要約: 本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 66.46537421135996
- License:
- Abstract: Advancements in DNA sequencing technologies have significantly improved our ability to decode genomic sequences. However, the prediction and interpretation of these sequences remain challenging due to the intricate nature of genetic material. Large language models (LLMs) have introduced new opportunities for biological sequence analysis. Recent developments in genomic language models have underscored the potential of LLMs in deciphering DNA sequences. Nonetheless, existing models often face limitations in robustness and application scope, primarily due to constraints in model structure and training data scale. To address these limitations, we present GENERator, a generative genomic foundation model featuring a context length of 98k base pairs (bp) and 1.2B parameters. Trained on an expansive dataset comprising 386B bp of eukaryotic DNA, the GENERator demonstrates state-of-the-art performance across both established and newly proposed benchmarks. The model adheres to the central dogma of molecular biology, accurately generating protein-coding sequences that translate into proteins structurally analogous to known families. It also shows significant promise in sequence optimization, particularly through the prompt-responsive generation of enhancer sequences with specific activity profiles. These capabilities position the GENERator as a pivotal tool for genomic research and biotechnological advancement, enhancing our ability to interpret and predict complex biological systems and enabling precise genomic interventions. Implementation details and supplementary resources are available at https://github.com/GenerTeam/GENERator.
- Abstract(参考訳): DNAシークエンシング技術の進歩により、ゲノム配列をデコードする能力が大幅に向上した。
しかし、これらの配列の予測と解釈は、遺伝物質の複雑な性質のために難しいままである。
大規模言語モデル(LLM)は、生物学的配列解析の新しい機会を導入した。
近年のゲノム言語モデルの発展は、LLMがDNA配列を解読する可能性を示している。
それにもかかわらず、既存のモデルは、主にモデル構造とトレーニングデータスケールの制約のために、ロバストネスとアプリケーションスコープの制限に直面していることが多い。
これらの制約に対処するために、98k塩基対(bp)と1.2Bパラメータのコンテキスト長を特徴とするジェネレータを提案する。
真核生物DNAの386Bbpからなる拡張データセットに基づいて、generatorは確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
このモデルは分子生物学の中枢腺腫に付着し、タンパク質をコードする配列を正確に生成し、構造的に既知のファミリーと類似するタンパク質へと変換する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
これらの能力は、ジェネレータをゲノム研究と生物工学の発展のための重要なツールとして位置づけ、複雑な生物学的システムの解釈と予測能力を高め、正確なゲノム介入を可能にする。
実装の詳細と追加リソースはhttps://github.com/GenerTeam/GENERator.comにある。
関連論文リスト
- Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - ProtGO: A Transformer based Fusion Model for accurately predicting Gene Ontology (GO) Terms from full scale Protein Sequences [0.11049608786515838]
本稿では,遺伝子オントロジーの用語をフルスケールのタンパク質配列から予測できるトランスフォーマーベースの融合モデルを提案する。
このモデルは、酵素の構造内の短期的および長期的依存関係の両方を理解することができ、様々なGO用語に関連するモチーフを正確に識別することができる。
論文 参考訳(メタデータ) (2024-12-08T02:09:45Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Generalising sequence models for epigenome predictions with tissue and
assay embeddings [1.9999259391104391]
組織とアッセイの埋め込みを文脈的ゲノミクスネットワーク(CGN)に組み込むことにより,幅広い実験条件において強い相関性が得られることを示す。
本研究は, エピジェネティック・シークエンス・モデル・トレーニングにおける遺伝的変異の影響について, 幅広いエピジェネティック・プロファイルにまたがるアプローチの有効性を示し, 遺伝子変異がエピジェネティック・シークエンス・モデル・トレーニングに与える影響について考察した。
論文 参考訳(メタデータ) (2023-08-22T10:34:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。