論文の概要: Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning
- arxiv url: http://arxiv.org/abs/2208.05341v1
- Date: Wed, 10 Aug 2022 13:30:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 13:25:26.266768
- Title: Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning
- Title(参考訳): 教師なし機械学習による核酸アプタマーの多様化設計
- Authors: Siba Moussa, Michael Kilgour, Clara Jans, Alex Hernandez-Garcia,
Miroslava Cuperlovic-Culf, Yoshua Bengio, and Lena Simine
- Abstract要約: 短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
- 参考スコア(独自算出の注目度): 54.247560894146105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse design of short single-stranded RNA and DNA sequences (aptamers) is
the task of finding sequences that satisfy a set of desired criteria. Relevant
criteria may be, for example, the presence of specific folding motifs, binding
to molecular ligands, sensing properties, etc. Most practical approaches to
aptamer design identify a small set of promising candidate sequences using
high-throughput experiments (e.g. SELEX), and then optimize performance by
introducing only minor modifications to the empirically found candidates.
Sequences that possess the desired properties but differ drastically in
chemical composition will add diversity to the search space and facilitate the
discovery of useful nucleic acid aptamers. Systematic diversification protocols
are needed. Here we propose to use an unsupervised machine learning model known
as the Potts model to discover new, useful sequences with controllable sequence
diversity. We start by training a Potts model using the maximum entropy
principle on a small set of empirically identified sequences unified by a
common feature. To generate new candidate sequences with a controllable degree
of diversity, we take advantage of the model's spectral feature: an energy
bandgap separating sequences that are similar to the training set from those
that are distinct. By controlling the Potts energy range that is sampled, we
generate sequences that are distinct from the training set yet still likely to
have the encoded features. To demonstrate performance, we apply our approach to
design diverse pools of sequences with specified secondary structure motifs in
30-mer RNA and DNA aptamers.
- Abstract(参考訳): 短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
関連する基準は、例えば、特定の折りたたみモチーフの存在、分子配位子への結合、センシング特性などである。
アプタマー設計に対する最も実践的なアプローチは、高スループット実験(例えばselex)を用いて有望な候補列の小さなセットを特定し、経験的に発見された候補に小さな修正を加えるだけでパフォーマンスを最適化する。
望ましい性質を持つが化学組成が著しく異なる配列は探索空間に多様性を与え、有用な核酸アプタマーの発見を促進する。
体系的な多様化プロトコルが必要である。
本稿では,制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを探索するために,ポッツモデルとして知られる教師なし機械学習モデルを用いることを提案する。
まず、共通の特徴によって統一された経験的特定シーケンスの小さなセット上で、最大エントロピー原理を用いてポッツモデルを訓練する。
多様性の制御可能な新しい候補系列を生成するために、モデルのスペクトル特性、すなわち、異なるトレーニングセットと類似した配列を分離するエネルギーバンドギャップを利用する。
サンプル化されたポッツエネルギー範囲を制御することで、トレーニングセットとは区別されるが、エンコードされた特徴を持つ可能性が高いシーケンスを生成する。
性能を示すために, 30-mer rnaおよびdnaアプタマーにおいて, 特定の二次構造モチーフを持つ配列の多種多様なプールを設計する。
関連論文リスト
- Reinforcement Learning for Sequence Design Leveraging Protein Language Models [14.477268882311991]
本稿では,タンパク質言語モデル(PLM)を報酬関数として利用し,新たな配列を生成することを提案する。
我々はRLベースのアプローチをベンチマークするために、様々なシーケンス長に関する広範な実験を行う。
生物学的妥当性とタンパク質の多様性に関する総合的な評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:31:36Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Biological Sequence Design with GFlowNets [75.1642973538266]
望ましい性質を持つデノボ生物配列の設計には、数ラウンドの分子のアイデアと高価なウェットラブ評価を伴う活性ループが伴うことが多い。
これにより、提案された候補の多様性は、構想段階において重要な考慮事項となる。
本稿では,不確実性推定と近年提案されているGFlowNetを多種多様な候補解の生成元として活用した能動的学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-02T15:53:38Z) - HpGAN: Sequence Search with Generative Adversarial Networks [21.770047587104923]
本稿では,GAN (Generative Adversarial Network) をアルゴリズムで検索するHpGANという新しい手法を提案する。
HpGANはゼロサムゲームに基づいて生成モデルをトレーニングし、トレーニングシーケンスに類似した特徴を持つシーケンスを生成する。
論文 参考訳(メタデータ) (2020-12-10T13:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。