論文の概要: Language Models for Controllable DNA Sequence Design
- arxiv url: http://arxiv.org/abs/2507.19523v1
- Date: Sat, 19 Jul 2025 06:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.467902
- Title: Language Models for Controllable DNA Sequence Design
- Title(参考訳): 制御可能なDNA配列設計のための言語モデル
- Authors: Xingyu Su, Xiner Li, Yuchao Lin, Ziqian Xie, Degui Zhi, Shuiwang Ji,
- Abstract要約: 制御可能生成のための自動変圧器発電機ATGC-Genを紹介する。
ATGC-Genはデコーダのみとエンコーダのみのトランスフォーマーアーキテクチャでインスタンス化されている。
我々の実験はATGC-Genが、流動的で多様性があり、生物学的に関係のある配列を生成できることを実証した。
- 参考スコア(独自算出の注目度): 41.74647005781059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider controllable DNA sequence design, where sequences are generated by conditioning on specific biological properties. While language models (LMs) such as GPT and BERT have achieved remarkable success in natural language generation, their application to DNA sequence generation remains largely underexplored. In this work, we introduce ATGC-Gen, an Automated Transformer Generator for Controllable Generation, which leverages cross-modal encoding to integrate diverse biological signals. ATGC-Gen is instantiated with both decoder-only and encoder-only transformer architectures, allowing flexible training and generation under either autoregressive or masked recovery objectives. We evaluate ATGC-Gen on representative tasks including promoter and enhancer sequence design, and further introduce a new dataset based on ChIP-Seq experiments for modeling protein binding specificity. Our experiments demonstrate that ATGC-Gen can generate fluent, diverse, and biologically relevant sequences aligned with the desired properties. Compared to prior methods, our model achieves notable improvements in controllability and functional relevance, highlighting the potential of language models in advancing programmable genomic design. The source code is released at (https://github.com/divelab/AIRS/blob/main/OpenBio/ATGC_Gen).
- Abstract(参考訳): 制御可能なDNA配列の設計について検討し、特定の生物学的性質を条件付けして配列を生成する。
GPTやBERTのような言語モデル(LM)は、自然言語生成において顕著な成功を収めているが、そのDNA配列生成への応用はいまだに未解明である。
本研究では,制御可能生成のための自動トランスフォーマージェネレータATGC-Genを紹介する。
ATGC-Genはデコーダのみとエンコーダのみのトランスフォーマーアーキテクチャの両方でインスタンス化され、フレキシブルなトレーニングと自動回帰またはマスク付きリカバリの目的による生成を可能にする。
我々は,プロモーターおよびエンハンサシーケンス設計を含む代表的タスクにおいてATGC-Genを評価し,タンパク質結合特異性をモデル化するためのChIP-Seq実験に基づく新しいデータセットを提案する。
実験の結果,ATGC-Genは所望の特性に整合した,流動的で多様性があり,生物学的に関係のある配列を生成できることがわかった。
従来の手法と比較して,制御性と機能的関連性は顕著に向上し,プログラム可能なゲノム設計の進歩における言語モデルの可能性を強調した。
ソースコードはhttps://github.com/divelab/AIRS/blob/main/OpenBio/ATGC_Genで公開されている。
関連論文リスト
- Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - Can Large Language Models Predict Antimicrobial Resistance Gene? [0.0]
本研究では, 大規模言語モデルが様々なラベルを持つDNA配列をいかに効果的に扱うかを評価する。
抗菌抵抗性遺伝子について実験を行い、その結果、生成型大規模言語モデルが同等または潜在的に優れた予測を提供することを示した。
論文 参考訳(メタデータ) (2025-03-06T13:10:57Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [59.60208063956459]
大規模言語モデル(LLM)は、効果的なアライメントのために高品質な命令データを必要とする。
本稿では,大規模かつ高品質な符号化命令を合成するスケーラブルなアルゴリズムであるGenematic-Instructを提案する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Understanding the Natural Language of DNA using Encoder-Decoder Foundation Models with Byte-level Precision [26.107996342704915]
本稿では,Ensemble Nucleotide Byte-level-Decoder(ENBED)基盤モデルを提案する。
我々はMasked Language Modelingを用いて、参照ゲノム配列を用いて基礎モデルを事前訓練し、以下の下流タスクに適用する。
これらの課題のそれぞれにおいて、既存の最先端の成果と比較して顕著な改善が示される。
論文 参考訳(メタデータ) (2023-11-04T06:00:56Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。