論文の概要: Latent Diffusion Model for DNA Sequence Generation
- arxiv url: http://arxiv.org/abs/2310.06150v2
- Date: Sun, 24 Dec 2023 23:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:41:12.589911
- Title: Latent Diffusion Model for DNA Sequence Generation
- Title(参考訳): DNA配列生成のための潜時拡散モデル
- Authors: Zehui Li, Yuhao Ni, Tim August B. Huygelen, Akashaditya Das, Guoxuan
Xia, Guy-Bart Stan, Yiren Zhao
- Abstract要約: 離散DNA配列生成に適した新しい潜伏拡散モデル DiscDiff を提案する。
離散DNA配列をオートエンコーダを用いて連続潜伏空間に埋め込むことで、離散データの生成に連続拡散モデルの強力な生成能力を活用できる。
我々は15種から150Kのプロモーター遺伝子配列の包括的クロス種データセットを寄贈し、ゲノム学における将来的な遺伝子モデリングのための資源を充実させた。
- 参考スコア(独自算出の注目度): 5.194506374366898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The harnessing of machine learning, especially deep generative models, has
opened up promising avenues in the field of synthetic DNA sequence generation.
Whilst Generative Adversarial Networks (GANs) have gained traction for this
application, they often face issues such as limited sample diversity and mode
collapse. On the other hand, Diffusion Models are a promising new class of
generative models that are not burdened with these problems, enabling them to
reach the state-of-the-art in domains such as image generation. In light of
this, we propose a novel latent diffusion model, DiscDiff, tailored for
discrete DNA sequence generation. By simply embedding discrete DNA sequences
into a continuous latent space using an autoencoder, we are able to leverage
the powerful generative abilities of continuous diffusion models for the
generation of discrete data. Additionally, we introduce Fr\'echet
Reconstruction Distance (FReD) as a new metric to measure the sample quality of
DNA sequence generations. Our DiscDiff model demonstrates an ability to
generate synthetic DNA sequences that align closely with real DNA in terms of
Motif Distribution, Latent Embedding Distribution (FReD), and Chromatin
Profiles. Additionally, we contribute a comprehensive cross-species dataset of
150K unique promoter-gene sequences from 15 species, enriching resources for
future generative modelling in genomics. We will make our code public upon
publication.
- Abstract(参考訳): 機械学習、特に深層生成モデルの活用は、合成DNA配列生成の分野で有望な道を開いた。
GAN(Generative Adversarial Networks)はこの応用の牽引力を得ているが、サンプルの多様性の制限やモード崩壊といった問題に直面していることが多い。
一方、拡散モデルは、これらの問題に負担を負わない有望な新しい生成モデルクラスであり、画像生成のような領域において最先端に到達できる。
そこで本研究では,DNAシークエンス生成に適した新しい潜伏拡散モデルであるDisdisDiffを提案する。
オートエンコーダを用いて、離散dna配列を連続的潜在空間に埋め込むことにより、離散データ生成のための連続拡散モデルの強力な生成能力を活用できる。
さらに、Fr'echet Reconstruction Distance (FReD) をDNA配列のサンプル品質を測定するための新しい指標として紹介する。
DiscDiffモデルでは、モチーフ分布、潜伏埋め込み分布(FReD)、クロマチンプロファイルの観点から、実際のDNAと密接に一致した合成DNA配列を生成する能力を示す。
さらに,15種から150kの固有プロモーター遺伝子配列の包括的クロス種間データセットを寄贈し,ゲノム学における将来的生成モデリングのための資源を充実させた。
私たちは公開時にコードを公開します。
関連論文リスト
- Absorb & Escape: Overcoming Single Model Limitations in Generating Genomic Sequences [4.946462450157714]
ゲノム配列生成におけるAutoRegressive(AR)モデルとDiffusion Models(DM)の特性を解析する。
本稿では,Absorb & Escape (A&E) と呼ばれるポストトレーニングサンプリング手法を提案する。
実験の結果、A&Eはゲノム配列生成における最先端のARモデルとDMよりも優れていた。
論文 参考訳(メタデータ) (2024-10-28T07:00:27Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - DiscDiff: Latent Diffusion Model for DNA Sequence Generation [4.946462450157714]
本稿では, 離散的なDNA配列を生成するための遅延拡散モデルであるDisdisDiffと, これらの配列を洗練するためのポストトレーニングアルゴリズムであるAbsorb-Escapeを紹介する。
EPD-GenDNAは15種から16万のユニークな配列を含む、DNA生成のための最初の包括的で多種のデータセットである。
本研究は,遺伝子治療やタンパク質生産に影響を及ぼす可能性のあるDNA生成モデルの構築を期待する。
論文 参考訳(メタデータ) (2024-02-08T22:06:55Z) - Dirichlet Diffusion Score Model for Biological Sequence Generation [2.0910267321492926]
拡散生成モデルは、多くのアプリケーションでかなりの成功を収めた。
定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。
これにより、離散データのモデリングには連続空間での拡散が自然になる。
論文 参考訳(メタデータ) (2023-05-18T04:24:31Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。