論文の概要: Deep metric learning improves lab of origin prediction of genetically
engineered plasmids
- arxiv url: http://arxiv.org/abs/2111.12606v1
- Date: Wed, 24 Nov 2021 16:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:24:19.952577
- Title: Deep metric learning improves lab of origin prediction of genetically
engineered plasmids
- Title(参考訳): deep metric learningは遺伝子組み換えプラスミドの原産地予測を改善する
- Authors: Igor M. Soares, Fernando H. F. Camargo, Adriano Marques, Oliver M.
Crook
- Abstract要約: 遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
- 参考スコア(独自算出の注目度): 63.05016513788047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genome engineering is undergoing unprecedented development and is now
becoming widely available. To ensure responsible biotechnology innovation and
to reduce misuse of engineered DNA sequences, it is vital to develop tools to
identify the lab-of-origin of engineered plasmids. Genetic engineering
attribution (GEA), the ability to make sequence-lab associations, would support
forensic experts in this process. Here, we propose a method, based on metric
learning, that ranks the most likely labs-of-origin whilst simultaneously
generating embeddings for plasmid sequences and labs. These embeddings can be
used to perform various downstream tasks, such as clustering DNA sequences and
labs, as well as using them as features in machine learning models. Our
approach employs a circular shift augmentation approach and is able to
correctly rank the lab-of-origin $90\%$ of the time within its top 10
predictions - outperforming all current state-of-the-art approaches. We also
demonstrate that we can perform few-shot-learning and obtain $76\%$ top-10
accuracy using only $10\%$ of the sequences. This means, we outperform the
previous CNN approach using only one-tenth of the data. We also demonstrate
that we are able to extract key signatures in plasmid sequences for particular
labs, allowing for an interpretable examination of the model's outputs.
- Abstract(参考訳): ゲノム工学は前例のない発展を遂げており、現在広く利用されている。
バイオテクノロジーの革新を確実にし、工学化されたDNA配列の誤用を減らすためには、工学化されたプラスミドの研究室を識別するツールを開発することが不可欠である。
遺伝子工学の属性(GEA)は、この過程における法医学の専門家を支援する。
本稿では,プラスミド配列と実験室の埋め込みを同時に生成しながら,最も可能性の高い実験室をランク付けする計量学習に基づく手法を提案する。
これらの埋め込みは、DNAシークエンスやラボのクラスタリングなど、さまざまな下流タスクの実行や、マシンラーニングモデルの機能として使用するために使用することができる。
当社のアプローチでは、円形シフト拡張アプローチを採用して、上位10の予測において、90%の時間を正確にランク付けすることが可能です。
また, 数点学習を行い, シーケンスの10-% のみを用いて, 7,6-%$ top-10 の精度が得られることを示した。
つまり、データの10分の1だけを使用して、以前のCNNアプローチよりも優れています。
また,特定の研究室でプラスミド配列内のキーシグネチャを抽出できることを実証し,モデルの出力を解釈可能であることを示した。
関連論文リスト
- DNA Sequence Classification with Compressors [0.0]
本研究は,DNA配列解析に適した圧縮機を用いたパラメータフリー分類法を新たに導入する。
この手法は、精度の観点から現在の最先端と整合するだけでなく、従来の機械学習手法よりもリソース効率の良い代替手段を提供する。
論文 参考訳(メタデータ) (2024-01-25T09:17:19Z) - Rapid prediction of lab-grown tissue properties using deep learning [0.0]
テザリング型で培養したセルラーデンハイドロゲルの自己組織化におけるメカノビロジーの役割を機械学習ツールを用いて予測する。
機械学習アルゴリズムはバイオ物理法よりもはるかに高速である。
足場と3Dバイオプリンティングのための将来の拡張は、追加のアプリケーションを開く。
論文 参考訳(メタデータ) (2023-03-31T12:49:37Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Learning to Untangle Genome Assembly with Graph Convolutional Networks [17.227634756670835]
我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
論文 参考訳(メタデータ) (2022-06-01T04:14:25Z) - GENEOnet: A new machine learning paradigm based on Group Equivariant
Non-Expansive Operators. An application to protein pocket detection [97.5153823429076]
グループ同変非拡張演算子に基づく新しい計算パラダイムを導入する。
我々は、薬物設計における重要な問題として、ホスト可能なタンパク質の表面のポケットを検出する、GENEOnetと呼ばれる方法を試した。
論文 参考訳(メタデータ) (2022-01-31T11:14:51Z) - Ranking labs-of-origin for genetically engineered DNA using Metric
Learning [0.0]
提案手法は,DNAシークエンスや実験室の組込みに最も可能性の高い実験室をランク付けし,組込みを生成する方法である。
これらの埋め込みは、DNA配列とラボの両方をクラスタリングするなど、他にもさまざまなタスクを実行することができる。
論文 参考訳(メタデータ) (2021-07-16T13:06:47Z) - Efficient approximation of DNA hybridisation using deep learning [0.0]
本研究は,DNAハイブリダイゼーションの予測に応用された機械学習手法の総合的研究である。
機械学習アルゴリズムの広い範囲の使用を可能にする2.5百万以上のデータポイントの合成ハイブリッド化データセットを紹介します。
論文 参考訳(メタデータ) (2021-02-19T19:23:49Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。