論文の概要: Deep metric learning improves lab of origin prediction of genetically
engineered plasmids
- arxiv url: http://arxiv.org/abs/2111.12606v1
- Date: Wed, 24 Nov 2021 16:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:24:19.952577
- Title: Deep metric learning improves lab of origin prediction of genetically
engineered plasmids
- Title(参考訳): deep metric learningは遺伝子組み換えプラスミドの原産地予測を改善する
- Authors: Igor M. Soares, Fernando H. F. Camargo, Adriano Marques, Oliver M.
Crook
- Abstract要約: 遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
- 参考スコア(独自算出の注目度): 63.05016513788047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genome engineering is undergoing unprecedented development and is now
becoming widely available. To ensure responsible biotechnology innovation and
to reduce misuse of engineered DNA sequences, it is vital to develop tools to
identify the lab-of-origin of engineered plasmids. Genetic engineering
attribution (GEA), the ability to make sequence-lab associations, would support
forensic experts in this process. Here, we propose a method, based on metric
learning, that ranks the most likely labs-of-origin whilst simultaneously
generating embeddings for plasmid sequences and labs. These embeddings can be
used to perform various downstream tasks, such as clustering DNA sequences and
labs, as well as using them as features in machine learning models. Our
approach employs a circular shift augmentation approach and is able to
correctly rank the lab-of-origin $90\%$ of the time within its top 10
predictions - outperforming all current state-of-the-art approaches. We also
demonstrate that we can perform few-shot-learning and obtain $76\%$ top-10
accuracy using only $10\%$ of the sequences. This means, we outperform the
previous CNN approach using only one-tenth of the data. We also demonstrate
that we are able to extract key signatures in plasmid sequences for particular
labs, allowing for an interpretable examination of the model's outputs.
- Abstract(参考訳): ゲノム工学は前例のない発展を遂げており、現在広く利用されている。
バイオテクノロジーの革新を確実にし、工学化されたDNA配列の誤用を減らすためには、工学化されたプラスミドの研究室を識別するツールを開発することが不可欠である。
遺伝子工学の属性(GEA)は、この過程における法医学の専門家を支援する。
本稿では,プラスミド配列と実験室の埋め込みを同時に生成しながら,最も可能性の高い実験室をランク付けする計量学習に基づく手法を提案する。
これらの埋め込みは、DNAシークエンスやラボのクラスタリングなど、さまざまな下流タスクの実行や、マシンラーニングモデルの機能として使用するために使用することができる。
当社のアプローチでは、円形シフト拡張アプローチを採用して、上位10の予測において、90%の時間を正確にランク付けすることが可能です。
また, 数点学習を行い, シーケンスの10-% のみを用いて, 7,6-%$ top-10 の精度が得られることを示した。
つまり、データの10分の1だけを使用して、以前のCNNアプローチよりも優れています。
また,特定の研究室でプラスミド配列内のキーシグネチャを抽出できることを実証し,モデルの出力を解釈可能であることを示した。
関連論文リスト
- Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Horizon-wise Learning Paradigm Promotes Gene Splicing Identification [6.225959701339916]
本稿では,Horizon-wise Gene Splicing Identification (H-GSI) という遺伝子スプライシング識別作業のための新しいフレームワークを提案する。
提案するH-GSIは,文字列データをテンソルに変換する前処理手順,長いシーケンスを扱うスライディングウインドウ手法,SeqLabモデル,予測器の4つのコンポーネントから構成される。
切断された固定長配列で遺伝子情報を処理している既存の研究とは対照的に、H-GSIは1つの前方計算でシーケンス内の全ての位置を予測する水平方向同定パラダイムを採用している。
論文 参考訳(メタデータ) (2024-06-15T08:18:09Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine
Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。
我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文 参考訳(メタデータ) (2022-08-10T13:30:58Z) - Learning to Untangle Genome Assembly with Graph Convolutional Networks [17.227634756670835]
我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。
実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
論文 参考訳(メタデータ) (2022-06-01T04:14:25Z) - Ranking labs-of-origin for genetically engineered DNA using Metric
Learning [0.0]
提案手法は,DNAシークエンスや実験室の組込みに最も可能性の高い実験室をランク付けし,組込みを生成する方法である。
これらの埋め込みは、DNA配列とラボの両方をクラスタリングするなど、他にもさまざまなタスクを実行することができる。
論文 参考訳(メタデータ) (2021-07-16T13:06:47Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Knowledge transfer across cell lines using Hybrid Gaussian Process
models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。
既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文 参考訳(メタデータ) (2020-11-27T17:38:15Z) - A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。
我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。
我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文 参考訳(メタデータ) (2020-11-04T00:42:01Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。