論文の概要: Dirichlet Diffusion Score Model for Biological Sequence Generation
- arxiv url: http://arxiv.org/abs/2305.10699v2
- Date: Fri, 16 Jun 2023 04:52:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 17:16:36.601492
- Title: Dirichlet Diffusion Score Model for Biological Sequence Generation
- Title(参考訳): 生物配列生成のためのディリクレ拡散スコアモデル
- Authors: Pavel Avdeyev, Chenlai Shi, Yuhao Tan, Kseniia Dudnyk, Jian Zhou
- Abstract要約: 拡散生成モデルは、多くのアプリケーションでかなりの成功を収めた。
定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。
これにより、離散データのモデリングには連続空間での拡散が自然になる。
- 参考スコア(独自算出の注目度): 2.0910267321492926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing biological sequences is an important challenge that requires
satisfying complex constraints and thus is a natural problem to address with
deep generative modeling. Diffusion generative models have achieved
considerable success in many applications. Score-based generative stochastic
differential equations (SDE) model is a continuous-time diffusion model
framework that enjoys many benefits, but the originally proposed SDEs are not
naturally designed for modeling discrete data. To develop generative SDE models
for discrete data such as biological sequences, here we introduce a diffusion
process defined in the probability simplex space with stationary distribution
being the Dirichlet distribution. This makes diffusion in continuous space
natural for modeling discrete data. We refer to this approach as Dirchlet
diffusion score model. We demonstrate that this technique can generate samples
that satisfy hard constraints using a Sudoku generation task. This generative
model can also solve Sudoku, including hard puzzles, without additional
training. Finally, we applied this approach to develop the first human promoter
DNA sequence design model and showed that designed sequences share similar
properties with natural promoter sequences.
- Abstract(参考訳): 生物配列を設計することは、複雑な制約を満たす必要がある重要な課題であり、そのため、深層生成モデルに対処する自然問題である。
拡散生成モデルは多くの応用でかなりの成功を収めている。
スコアに基づく生成的確率微分方程式(sde)モデルは、多くの利点を享受する連続時間拡散モデルフレームワークであるが、当初提案されたsdeは、離散データモデリングのために自然に設計されたものではない。
生物配列などの離散データに対する生成SDEモデルを開発するために, 定常分布がディリクレ分布である確率単純空間で定義される拡散過程を導入する。
これにより、連続空間における拡散は離散データのモデリングに自然である。
このアプローチをdirchlet diffusion score modelと呼んでいる。
本手法は,sudoku生成タスクを用いてハード制約を満たすサンプルを生成できることを実証する。
この生成モデルは、追加の訓練なしにハードパズルを含む数独を解くこともできる。
最後に,ヒトプロモーターDNA配列設計モデルの開発に本手法を適用し,設計した配列が自然プロモーター配列と類似した性質を持つことを示した。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Convergence Analysis of Discrete Diffusion Model: Exact Implementation
through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。
我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-12T22:26:52Z) - Latent Diffusion Model for DNA Sequence Generation [5.194506374366898]
離散DNA配列生成に適した新しい潜伏拡散モデル DiscDiff を提案する。
離散DNA配列をオートエンコーダを用いて連続潜伏空間に埋め込むことで、離散データの生成に連続拡散モデルの強力な生成能力を活用できる。
我々は15種から150Kのプロモーター遺伝子配列の包括的クロス種データセットを寄贈し、ゲノム学における将来的な遺伝子モデリングのための資源を充実させた。
論文 参考訳(メタデータ) (2023-10-09T20:58:52Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Exploring the Optimal Choice for Generative Processes in Diffusion
Models: Ordinary vs Stochastic Differential Equations [6.2284442126065525]
ゼロ拡散(ODE)の場合と大きな拡散の場合の2つの制限シナリオについて数学的に検討する。
その結果, 生成過程の終端に摂動が発生すると, ODEモデルは大きな拡散係数でSDEモデルより優れることがわかった。
論文 参考訳(メタデータ) (2023-06-03T09:27:15Z) - Protein Design with Guided Discrete Diffusion [67.06148688398677]
タンパク質設計における一般的なアプローチは、生成モデルと条件付きサンプリングのための識別モデルを組み合わせることである。
離散拡散モデルのためのガイダンス手法であるdiffusioN Optimized Smpling (NOS)を提案する。
NOSは、構造に基づく手法の重要な制限を回避し、シーケンス空間で直接設計を行うことができる。
論文 参考訳(メタデータ) (2023-05-31T16:31:24Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Score-based Generative Modeling of Graphs via the System of Stochastic
Differential Equations [57.15855198512551]
本稿では,連続時間フレームワークを用いたグラフのスコアベース生成モデルを提案する。
本手法は, トレーニング分布に近い分子を生成できるが, 化学価数則に違反しないことを示す。
論文 参考訳(メタデータ) (2022-02-05T08:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。