論文の概要: Absorb & Escape: Overcoming Single Model Limitations in Generating Genomic Sequences
- arxiv url: http://arxiv.org/abs/2410.21345v1
- Date: Mon, 28 Oct 2024 07:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:27.453587
- Title: Absorb & Escape: Overcoming Single Model Limitations in Generating Genomic Sequences
- Title(参考訳): Absorb & Escape:ゲノム配列生成における単一モデル制限の克服
- Authors: Zehui Li, Yuhao Ni, Guoxuan Xia, William Beardall, Akashaditya Das, Guy-Bart Stan, Yiren Zhao,
- Abstract要約: ゲノム配列生成におけるAutoRegressive(AR)モデルとDiffusion Models(DM)の特性を解析する。
本稿では,Absorb & Escape (A&E) と呼ばれるポストトレーニングサンプリング手法を提案する。
実験の結果、A&Eはゲノム配列生成における最先端のARモデルとDMよりも優れていた。
- 参考スコア(独自算出の注目度): 4.946462450157714
- License:
- Abstract: Abstract Recent advances in immunology and synthetic biology have accelerated the development of deep generative methods for DNA sequence design. Two dominant approaches in this field are AutoRegressive (AR) models and Diffusion Models (DMs). However, genomic sequences are functionally heterogeneous, consisting of multiple connected regions (e.g., Promoter Regions, Exons, and Introns) where elements within each region come from the same probability distribution, but the overall sequence is non-homogeneous. This heterogeneous nature presents challenges for a single model to accurately generate genomic sequences. In this paper, we analyze the properties of AR models and DMs in heterogeneous genomic sequence generation, pointing out crucial limitations in both methods: (i) AR models capture the underlying distribution of data by factorizing and learning the transition probability but fail to capture the global property of DNA sequences. (ii) DMs learn to recover the global distribution but tend to produce errors at the base pair level. To overcome the limitations of both approaches, we propose a post-training sampling method, termed Absorb & Escape (A&E) to perform compositional generation from AR models and DMs. This approach starts with samples generated by DMs and refines the sample quality using an AR model through the alternation of the Absorb and Escape steps. To assess the quality of generated sequences, we conduct extensive experiments on 15 species for conditional and unconditional DNA generation. The experiment results from motif distribution, diversity checks, and genome integration tests unequivocally show that A&E outperforms state-of-the-art AR models and DMs in genomic sequence generation.
- Abstract(参考訳): 免疫学と合成生物学の最近の進歩により、DNA配列設計のための深層生成法の開発が加速された。
この分野での主要なアプローチは、Auto Regressive(AR)モデルとDiffusion Models(DM)である。
しかし、ゲノム配列は機能的に不均一であり、複数の連結領域(例えば、プロモーター領域、エキソン、イントロン)から構成される。
この異質な性質は、単一のモデルがゲノム配列を正確に生成する際の課題を示す。
本稿では, 異種ゲノム配列生成におけるARモデルとDMの特性を解析し, 両手法の限界を指摘する。
i) ARモデルは、遷移確率を分解して学習することで、基盤となるデータの分布を捉えるが、DNA配列のグローバルな性質を捉えない。
(II)DMはグローバル分布の回復を学習するが,基本ペアレベルでエラーが発生する傾向にある。
両手法の限界を克服するために,Absorb & Escape (A&E) と呼ばれる,ARモデルとDMから合成生成を行うポストトレーニングサンプリング手法を提案する。
このアプローチは、DMによって生成されたサンプルから始まり、AbsorbとEscapeのステップの変更を通じて、ARモデルを使用してサンプル品質を洗練する。
生成配列の品質を評価するため,条件付きおよび無条件のDNA生成のための15種の広範囲な実験を行った。
この実験は、モチーフ分布、多様性チェック、ゲノム統合テストの結果、A&Eがゲノム配列生成において最先端のARモデルとDMよりも優れていることを示した。
関連論文リスト
- Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - sc-OTGM: Single-Cell Perturbation Modeling by Solving Optimal Mass Transport on the Manifold of Gaussian Mixtures [0.9674145073701153]
sc-OTGMは、scRNAseqデータが生成される誘導バイアスに基づく教師なしモデルである。
sc-OTGMは細胞状態の分類、異なる遺伝子発現の解析、標的同定のための遺伝子ランキングに有効である。
また、下流遺伝子制御に対する単一遺伝子の摂動の影響を予測し、特定の細胞状態に条件付けられた合成scRNA-seqデータを生成する。
論文 参考訳(メタデータ) (2024-05-06T06:46:11Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Latent Diffusion Model for DNA Sequence Generation [5.194506374366898]
離散DNA配列生成に適した新しい潜伏拡散モデル DiscDiff を提案する。
離散DNA配列をオートエンコーダを用いて連続潜伏空間に埋め込むことで、離散データの生成に連続拡散モデルの強力な生成能力を活用できる。
我々は15種から150Kのプロモーター遺伝子配列の包括的クロス種データセットを寄贈し、ゲノム学における将来的な遺伝子モデリングのための資源を充実させた。
論文 参考訳(メタデータ) (2023-10-09T20:58:52Z) - Learning Causal Representations of Single Cells via Sparse Mechanism
Shift Modeling [3.2435888122704037]
本稿では,各摂動を未知の,しかしスパースな,潜伏変数のサブセットを標的とした介入として扱う単一細胞遺伝子発現データの深部生成モデルを提案する。
これらの手法をシミュレーションした単一セルデータ上でベンチマークし、潜伏単位回復、因果的目標同定、領域外一般化における性能を評価する。
論文 参考訳(メタデータ) (2022-11-07T15:47:40Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - GANs with Variational Entropy Regularizers: Applications in Mitigating
the Mode-Collapse Issue [95.23775347605923]
深層学習の成功に基づいて、GAN(Generative Adversarial Networks)は、観測されたサンプルから確率分布を学習するための現代的なアプローチを提供する。
GANはしばしば、ジェネレータが入力分布の既存のすべてのモードをキャプチャできないモード崩壊問題に悩まされる。
情報理論のアプローチを採り、生成したサンプルのエントロピーの変動的下限を最大化し、それらの多様性を増大させる。
論文 参考訳(メタデータ) (2020-09-24T19:34:37Z) - Conditional Hybrid GAN for Sequence Generation [56.67961004064029]
本稿では,この問題を解決するための条件付きハイブリッドGAN(C-Hybrid-GAN)を提案する。
我々はGumbel-Softmax法を利用して離散値列の分布を近似する。
提案したC-Hybrid-GANは、文脈条件付き離散値シーケンス生成において既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-18T03:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。