Fugu-MT 論文翻訳(概要): Deep metric learning improves lab of origin prediction of genetically engineered plasmids

論文の概要: Deep metric learning improves lab of origin prediction of genetically engineered plasmids

arxiv url: http://arxiv.org/abs/2111.12606v1
Date: Wed, 24 Nov 2021 16:29:03 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-25 15:24:19.952577
Title: Deep metric learning improves lab of origin prediction of genetically engineered plasmids
Title（参考訳）: deep metric learningは遺伝子組み換えプラスミドの原産地予測を改善する
Authors: Igor M. Soares, Fernando H. F. Camargo, Adriano Marques, Oliver M. Crook
Abstract要約: 遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
参考スコア（独自算出の注目度）: 63.05016513788047
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Genome engineering is undergoing unprecedented development and is now becoming widely available. To ensure responsible biotechnology innovation and to reduce misuse of engineered DNA sequences, it is vital to develop tools to identify the lab-of-origin of engineered plasmids. Genetic engineering attribution (GEA), the ability to make sequence-lab associations, would support forensic experts in this process. Here, we propose a method, based on metric learning, that ranks the most likely labs-of-origin whilst simultaneously generating embeddings for plasmid sequences and labs. These embeddings can be used to perform various downstream tasks, such as clustering DNA sequences and labs, as well as using them as features in machine learning models. Our approach employs a circular shift augmentation approach and is able to correctly rank the lab-of-origin $90\%$ of the time within its top 10 predictions - outperforming all current state-of-the-art approaches. We also demonstrate that we can perform few-shot-learning and obtain $76\%$ top-10 accuracy using only $10\%$ of the sequences. This means, we outperform the previous CNN approach using only one-tenth of the data. We also demonstrate that we are able to extract key signatures in plasmid sequences for particular labs, allowing for an interpretable examination of the model's outputs.
Abstract（参考訳）: ゲノム工学は前例のない発展を遂げており、現在広く利用されている。バイオテクノロジーの革新を確実にし、工学化されたDNA配列の誤用を減らすためには、工学化されたプラスミドの研究室を識別するツールを開発することが不可欠である。遺伝子工学の属性(GEA)は、この過程における法医学の専門家を支援する。本稿では,プラスミド配列と実験室の埋め込みを同時に生成しながら,最も可能性の高い実験室をランク付けする計量学習に基づく手法を提案する。これらの埋め込みは、DNAシークエンスやラボのクラスタリングなど、さまざまな下流タスクの実行や、マシンラーニングモデルの機能として使用するために使用することができる。当社のアプローチでは、円形シフト拡張アプローチを採用して、上位10の予測において、90%の時間を正確にランク付けすることが可能です。また, 数点学習を行い, シーケンスの10-% のみを用いて, 7,6-%$ top-10 の精度が得られることを示した。つまり、データの10分の1だけを使用して、以前のCNNアプローチよりも優れています。また,特定の研究室でプラスミド配列内のキーシグネチャを抽出できることを実証し,モデルの出力を解釈可能であることを示した。

関連論文リスト

Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文参考訳（メタデータ） (2025-05-22T13:46:18Z)
Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。 2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文参考訳（メタデータ） (2025-03-11T02:33:33Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
ProtGO: A Transformer based Fusion Model for accurately predicting Gene Ontology (GO) Terms from full scale Protein Sequences [0.11049608786515838]
本稿では,遺伝子オントロジーの用語をフルスケールのタンパク質配列から予測できるトランスフォーマーベースの融合モデルを提案する。このモデルは、酵素の構造内の短期的および長期的依存関係の両方を理解することができ、様々なGO用語に関連するモチーフを正確に識別することができる。
論文参考訳（メタデータ） (2024-12-08T02:09:45Z)
Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文参考訳（メタデータ） (2024-07-03T10:31:30Z)
Horizon-wise Learning Paradigm Promotes Gene Splicing Identification [6.225959701339916]
本稿では,Horizon-wise Gene Splicing Identification (H-GSI) という遺伝子スプライシング識別作業のための新しいフレームワークを提案する。提案するH-GSIは,文字列データをテンソルに変換する前処理手順,長いシーケンスを扱うスライディングウインドウ手法,SeqLabモデル,予測器の4つのコンポーネントから構成される。切断された固定長配列で遺伝子情報を処理している既存の研究とは対照的に、H-GSIは1つの前方計算でシーケンス内の全ての位置を予測する水平方向同定パラダイムを採用している。
論文参考訳（メタデータ） (2024-06-15T08:18:09Z)
BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。 BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。 6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文参考訳（メタデータ） (2024-05-27T19:57:17Z)
Diversifying Design of Nucleic Acid Aptamers Using Unsupervised Machine Learning [54.247560894146105]
短い一本鎖RNAとDNA配列(アプタマー)の逆設計は、一連の望ましい基準を満たす配列を見つけるタスクである。我々は、Pottsモデルとして知られる教師なし機械学習モデルを用いて、制御可能なシーケンスの多様性を持つ新しい有用なシーケンスを発見することを提案する。
論文参考訳（メタデータ） (2022-08-10T13:30:58Z)
Learning to Untangle Genome Assembly with Graph Convolutional Networks [17.227634756670835]
我々は,グラフ畳み込みネットワークをトレーニングし,それらを経由する正しい経路を見つけることによって,アセンブリグラフを解決するための新しい学習フレームワークを導入する。実験の結果、単一の染色体からのみ生成された模擬グラフに基づいて訓練されたモデルが、他の全ての染色体を著しく解決できることがわかった。
論文参考訳（メタデータ） (2022-06-01T04:14:25Z)
Ranking labs-of-origin for genetically engineered DNA using Metric Learning [0.0]
提案手法は,DNAシークエンスや実験室の組込みに最も可能性の高い実験室をランク付けし,組込みを生成する方法である。これらの埋め込みは、DNA配列とラボの両方をクラスタリングするなど、他にもさまざまなタスクを実行することができる。
論文参考訳（メタデータ） (2021-07-16T13:06:47Z)
Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文参考訳（メタデータ） (2021-02-17T05:57:26Z)
Knowledge transfer across cell lines using Hybrid Gaussian Process models with entity embedding vectors [62.997667081978825]
生物化学的プロセスを開発するために、多数の実験が実施されている。既に開発されたプロセスのデータを利用して、新しいプロセスの予測を行い、必要な実験の数を大幅に削減できるだろうか。
論文参考訳（メタデータ） (2020-11-27T17:38:15Z)
A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文参考訳（メタデータ） (2020-11-04T00:42:01Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。