Fugu-MT 論文翻訳(概要): DiscDiff: Latent Diffusion Model for DNA Sequence Generation

論文の概要: DiscDiff: Latent Diffusion Model for DNA Sequence Generation

arxiv url: http://arxiv.org/abs/2402.06079v2
Date: Wed, 17 Apr 2024 16:31:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 19:01:11.460025
Title: DiscDiff: Latent Diffusion Model for DNA Sequence Generation
Title（参考訳）: DiscDiff:DNA配列生成のための潜時拡散モデル
Authors: Zehui Li, Yuhao Ni, William A V Beardall, Guoxuan Xia, Akashaditya Das, Guy-Bart Stan, Yiren Zhao,
Abstract要約: 本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。 EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
参考スコア（独自算出の注目度）: 4.946462450157714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a novel framework for DNA sequence generation, comprising two key components: DiscDiff, a Latent Diffusion Model (LDM) tailored for generating discrete DNA sequences, and Absorb-Escape, a post-training algorithm designed to refine these sequences. Absorb-Escape enhances the realism of the generated sequences by correcting `round errors' inherent in the conversion process between latent and input spaces. Our approach not only sets new standards in DNA sequence generation but also demonstrates superior performance over existing diffusion models, in generating both short and long DNA sequences. Additionally, we introduce EPD-GenDNA, the first comprehensive, multi-species dataset for DNA generation, encompassing 160,000 unique sequences from 15 species. We hope this study will advance the generative modelling of DNA, with potential implications for gene therapy and protein production.
Abstract（参考訳）: 本稿では, 離散的なDNA配列を生成するための遅延拡散モデル(LDM)と, それらの配列を改良するポストトレーニングアルゴリズムであるAbsorb-Escapeの2つの重要な構成要素からなる, 新規なDNA配列生成フレームワークを提案する。 Absorb-Escapeは、潜在空間と入力空間の間の変換過程に固有の「丸いエラー」を補正することで、生成されたシーケンスのリアリズムを強化する。提案手法は,DNA配列生成の新たな標準を規定するだけでなく,DNA配列の短鎖と長鎖の両方を生成する上で,既存の拡散モデルよりも優れた性能を示す。さらに15種から16万のユニークな配列を網羅した,最初の包括的多種のDNA生成データセットであるEPD-GenDNAを紹介した。本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。

関連論文リスト

D3LM: A Discrete DNA Diffusion Language Model for Bidirectional DNA Understanding and Generation [16.814731997144012]
D3LM(textbfDiscrete textbfDNA textbfDiffusion textbfLanguage textbfModel)は、マスク拡散による双方向表現学習とDNA生成を実現する。 D3LMはNucleotide Transformer (NT) v2アーキテクチャを直接採用しているが、訓練対象を離散DNA空間におけるマスク拡散として再構成する。
論文参考訳（メタデータ） (2026-03-02T12:05:21Z)
Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。 2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文参考訳（メタデータ） (2025-03-11T02:33:33Z)
HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model [70.69095062674944]
ハイブリッドトランスフォーマー-マンバ2アーキテクチャを組み込んだデコーダのみのDNA言語モデルであるHybriDNAを提案する。このハイブリッド設計により、HybriDNAはDNA配列を最大131kbまで効率よく単一のヌクレオチド分解能で処理できる。 HybriDNAは、BEND、GUE、LRBベンチマークから算出された33のDNA理解データセットにまたがる最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-15T14:23:43Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Absorb & Escape: Overcoming Single Model Limitations in Generating Genomic Sequences [4.946462450157714]
ゲノム配列生成におけるAutoRegressive(AR)モデルとDiffusion Models(DM)の特性を解析する。本稿では,Absorb & Escape (A&E) と呼ばれるポストトレーニングサンプリング手法を提案する。実験の結果、A&Eはゲノム配列生成における最先端のARモデルとDMよりも優れていた。
論文参考訳（メタデータ） (2024-10-28T07:00:27Z)
Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。 DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文参考訳（メタデータ） (2024-10-17T15:10:13Z)
Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文参考訳（メタデータ） (2024-07-03T10:31:30Z)
Diffusion Language Models Are Versatile Protein Learners [75.98083311705182]
本稿では,タンパク質配列の強い生成および予測能力を示す多目的なタンパク質言語モデルである拡散タンパク質言語モデル(DPLM)を紹介する。まず, 自己制御型離散拡散確率フレームワークを用いて, 進化的タンパク質配列からのスケーラブルDPLMの事前学習を行った。プレトレーニング後、DPLMは非条件生成のための構造的に可塑性で新規で多様なタンパク質配列を生成する能力を示す。
論文参考訳（メタデータ） (2024-02-28T18:57:56Z)
DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。 23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文参考訳（メタデータ） (2024-02-13T20:21:29Z)
Latent Diffusion Model for DNA Sequence Generation [5.194506374366898]
離散DNA配列生成に適した新しい潜伏拡散モデル DiscDiff を提案する。離散DNA配列をオートエンコーダを用いて連続潜伏空間に埋め込むことで、離散データの生成に連続拡散モデルの強力な生成能力を活用できる。我々は15種から150Kのプロモーター遺伝子配列の包括的クロス種データセットを寄贈し、ゲノム学における将来的な遺伝子モデリングのための資源を充実させた。
論文参考訳（メタデータ） (2023-10-09T20:58:52Z)
DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文参考訳（メタデータ） (2023-07-11T06:30:43Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文参考訳（メタデータ） (2022-08-10T13:30:58Z)
Deep metric learning improves lab of origin prediction of genetically engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文参考訳（メタデータ） (2021-11-24T16:29:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。