論文の概要: Property-Isometric Variational Autoencoders for Sequence Modeling and Design
- arxiv url: http://arxiv.org/abs/2509.14287v1
- Date: Tue, 16 Sep 2025 21:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:52.919225
- Title: Property-Isometric Variational Autoencoders for Sequence Modeling and Design
- Title(参考訳): 時系列モデリングと設計のための特性慣性変分オートエンコーダ
- Authors: Elham Sadeghi, Xianqi Deng, I-Hsin Lin, Stacy M. Copp, Petko Bogdanov,
- Abstract要約: 本稿では, PrIVAE と呼ばれる形状保存型変分オートエンコーダフレームワークを提案する。
PrIVAEは、それらの性質空間の幾何学を尊重する潜在配列埋め込みを学ぶ。
1) 蛍光性金属ナノクラスターをテンプレート化するDNA配列の設計, (2) 抗菌性ペプチドの設計。
- 参考スコア(独自算出の注目度): 2.4575466958868675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological sequence design (DNA, RNA, or peptides) with desired functional properties has applications in discovering novel nanomaterials, biosensors, antimicrobial drugs, and beyond. One common challenge is the ability to optimize complex high-dimensional properties such as target emission spectra of DNA-mediated fluorescent nanoparticles, photo and chemical stability, and antimicrobial activity of peptides across target microbes. Existing models rely on simple binary labels (e.g., binding/non-binding) rather than high-dimensional complex properties. To address this gap, we propose a geometry-preserving variational autoencoder framework, called PrIVAE, which learns latent sequence embeddings that respect the geometry of their property space. Specifically, we model the property space as a high-dimensional manifold that can be locally approximated by a nearest neighbor graph, given an appropriately defined distance measure. We employ the property graph to guide the sequence latent representations using (1) graph neural network encoder layers and (2) an isometric regularizer. PrIVAE learns a property-organized latent space that enables rational design of new sequences with desired properties by employing the trained decoder. We evaluate the utility of our framework for two generative tasks: (1) design of DNA sequences that template fluorescent metal nanoclusters and (2) design of antimicrobial peptides. The trained models retain high reconstruction accuracy while organizing the latent space according to properties. Beyond in silico experiments, we also employ sampled sequences for wet lab design of DNA nanoclusters, resulting in up to 16.1-fold enrichment of rare-property nanoclusters compared to their abundance in training data, demonstrating the practical utility of our framework.
- Abstract(参考訳): 機能性が望ましい生物学的配列設計(DNA、RNA、ペプチド)は、新規なナノマテリアル、バイオセンサー、抗菌薬等の発見に応用されている。
一般的な課題の1つは、DNAを介する蛍光ナノ粒子のターゲット発光スペクトル、光および化学的安定性、標的微生物のペプチドの抗菌活性などの複雑な高次元特性を最適化する能力である。
既存のモデルは、高次元の複素特性ではなく単純なバイナリラベル(例えば、結合や非結合)に依存している。
このギャップに対処するために, PrIVAE と呼ばれる幾何学保存型変分オートエンコーダフレームワークを提案し, それらの特性空間の幾何学を尊重する潜時列埋め込みを学習する。
具体的には、プロパティ空間を、適切に定義された距離測度を与えられた近傍グラフによって局所的に近似できる高次元多様体としてモデル化する。
我々は,(1) グラフニューラルネットワークエンコーダ層と(2) 等尺正則化器を用いて,シーケンス潜在表現を導出するためにプロパティグラフを用いる。
PrIVAEは、トレーニングされたデコーダを用いることで、所望の特性を持つ新しい配列の合理的な設計を可能にする、プロパティ組織付き潜在空間を学習する。
1) 蛍光性金属ナノクラスターをテンプレート化するDNA配列の設計, (2) 抗菌性ペプチドの設計。
トレーニングされたモデルは、特性に応じて潜在空間を整理しながら高い復元精度を維持する。
サイリコ実験以外にも、DNAナノクラスターの湿式実験室設計にサンプル配列を用い、トレーニングデータの豊富さと比較して16.1倍のレアプロパタイトナノクラスターを濃縮し、我々のフレームワークの実用性を実証した。
関連論文リスト
- DS-ProGen: A Dual-Structure Deep Language Model for Functional Protein Design [21.43301218674909]
逆タンパク質フォールディング(英: inverse protein Folding)は、タンパク質設計の分野における重要なサブタスクである。
本稿では,機能的タンパク質設計のための二重構造深層言語モデルDS-ProGenを提案する。
バックボーン座標と表面化学および幾何学的記述子を次のアミノ酸予測パラダイムに組み込むことで、DS-ProGenは機能的に関連し、構造的に安定な配列を生成することができる。
論文 参考訳(メタデータ) (2025-05-18T18:08:35Z) - UniGenX: a unified generative foundation model that couples sequence, structure and function to accelerate scientific design across proteins, molecules and materials [62.72989417755985]
自然系における関数の統一生成モデルUniGenXを提案する。
UniGenXはシンボルトークンと数値トークンの混合ストリームとして異種入力を表す。
ドメイン間のファンクション・アウェア・ジェネレーションに対して、最先端または競合的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T16:43:07Z) - InversionGNN: A Dual Path Network for Multi-Property Molecular Optimization [77.79862482208326]
InversionGNNは、多目的薬物発見のための有効だがサンプル効率のよいデュアルパスグラフニューラルネットワーク(GNN)である。
関数群の最適組み合わせに関する知識を得るために,マルチプロパティ予測のためのモデルを訓練する。
そして、学習された化学知識は、インバージョン生成経路が要求される性質を持つ分子を生成するのに役立つ。
論文 参考訳(メタデータ) (2025-03-03T12:53:36Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。