論文の概要: Regulatory DNA sequence Design with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.07981v1
- Date: Tue, 11 Mar 2025 02:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:19.228732
- Title: Regulatory DNA sequence Design with Reinforcement Learning
- Title(参考訳): 強化学習を用いたレギュレータDNA配列設計
- Authors: Zhao Yang, Bing Su, Chuan Cao, Ji-Rong Wen,
- Abstract要約: 本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
- 参考スコア(独自算出の注目度): 56.20290878358356
- License:
- Abstract: Cis-regulatory elements (CREs), such as promoters and enhancers, are relatively short DNA sequences that directly regulate gene expression. The fitness of CREs, measured by their ability to modulate gene expression, highly depends on the nucleotide sequences, especially specific motifs known as transcription factor binding sites (TFBSs). Designing high-fitness CREs is crucial for therapeutic and bioengineering applications. Current CRE design methods are limited by two major drawbacks: (1) they typically rely on iterative optimization strategies that modify existing sequences and are prone to local optima, and (2) they lack the guidance of biological prior knowledge in sequence optimization. In this paper, we address these limitations by proposing a generative approach that leverages reinforcement learning (RL) to fine-tune a pre-trained autoregressive (AR) model. Our method incorporates data-driven biological priors by deriving computational inference-based rewards that simulate the addition of activator TFBSs and removal of repressor TFBSs, which are then integrated into the RL process. We evaluate our method on promoter design tasks in two yeast media conditions and enhancer design tasks for three human cell types, demonstrating its ability to generate high-fitness CREs while maintaining sequence diversity. The code is available at https://github.com/yangzhao1230/TACO.
- Abstract(参考訳): cis-regulatory element(CRE)は、プロモーターやエンハンサーのような、遺伝子発現を直接調節する比較的短いDNA配列である。
遺伝子の発現を調節する能力によって測定されるCREの適合度は、ヌクレオチド配列、特に転写因子結合部位(TFBSs)として知られる特定のモチーフに大きく依存する。
高適合性CREの設計は、治療およびバイオエンジニアリングの応用に不可欠である。
現在のCRE設計法は,(1)既存の配列を編集する反復最適化手法に頼り,(2)配列最適化における生物学的事前知識の指導を欠いている,という2つの大きな欠点によって制限されている。
本稿では、強化学習(RL)を利用して、事前学習された自己回帰モデル(AR)を微調整する生成的アプローチを提案することにより、これらの制約に対処する。
本手法は,アクティベータTFBSの付加とリプレッサーTFBSの除去をシミュレートする計算推論に基づく報酬を導出し,RLプロセスに組み込むことにより,データ駆動型生物学的先入観を組み込む。
2つの酵母培地条件下でのプロモーター設計タスクと3つのヒト細胞タイプのためのプロモーター設計タスクの評価を行い、配列の多様性を維持しながら高適合なCREを生成する能力を実証した。
コードはhttps://github.com/yangzhao1230/TACOで公開されている。
関連論文リスト
- HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。
このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。
HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-15T14:23:43Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本稿では,フローマッチングに基づくRNA配列設計のための汎用フレームワークであるRNACG(RNA Generator)を提案する。
1つのフレームワークでシーケンス生成を統一することにより、RNACGは複数のRNA設計パラダイムの統合を可能にする。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - xTrimoPGLM: Unified 100B-Scale Pre-trained Transformer for Deciphering the Language of Protein [74.64101864289572]
本稿では,タンパク質の理解と生成を同時に行うために,統一されたタンパク質言語モデル xTrimoPGLM を提案する。
xTrimoPGLMは、4つのカテゴリにわたる18のタンパク質理解ベンチマークにおいて、他の高度なベースラインを著しく上回っている。
また、自然の原理に従ってデノボタンパク質配列を生成でき、微調整を監督した後にプログラム可能な生成を行うことができる。
論文 参考訳(メタデータ) (2024-01-11T15:03:17Z) - Reinforced Genetic Algorithm for Structure-based Drug Design [38.134929249388406]
SBDD(Structure-based drug design)は、疾患関連タンパク質(ターゲット)に結合する分子を見つけることにより、薬物候補を見つけることを目的とした薬物設計である。
本稿では,ニューラルネットワークを用いた遺伝的アルゴリズム(Reinforced Genetic Algorithm, RGA)を提案する。
論文 参考訳(メタデータ) (2022-11-28T22:59:46Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Comparison of machine learning and deep learning techniques in promoter
prediction across diverse species [1.8899300124593648]
3つの高等真核生物のゲノム配列を用いたベクターエンコーディング法とプロモーター分類法を検討した。
酵母、A. タリアナおよび人間。
cnnは非プロモーター配列からのプロモーターの分類(バイナリ分類)やプロモーター配列の種別分類(マルチクラス分類)において優れていることがわかった。
論文 参考訳(メタデータ) (2021-05-17T08:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。