論文の概要: Biological Sequence Kernels with Guaranteed Flexibility
- arxiv url: http://arxiv.org/abs/2304.03775v1
- Date: Thu, 6 Apr 2023 14:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:50:19.206767
- Title: Biological Sequence Kernels with Guaranteed Flexibility
- Title(参考訳): 柔軟性を保証した生物配列核
- Authors: Alan Nawzad Amin, Eli Nathan Weinstein, Debora Susan Marks
- Abstract要約: カーネルは、分子の表現型を予測し、新しいタンパク質を設計し、配列の分布を比較するなどするために使用される。
生物配列のカーネルが、配列空間上の任意の関数を近似し、どのように異なる配列分布を区別できるかを解析する。
生物配列に対する多数の既存のカーネルベースの機械学習手法が我々の条件を満たすことができず、結果として深刻な失敗を生ずる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Applying machine learning to biological sequences - DNA, RNA and protein -
has enormous potential to advance human health, environmental sustainability,
and fundamental biological understanding. However, many existing machine
learning methods are ineffective or unreliable in this problem domain. We study
these challenges theoretically, through the lens of kernels. Methods based on
kernels are ubiquitous: they are used to predict molecular phenotypes, design
novel proteins, compare sequence distributions, and more. Many methods that do
not use kernels explicitly still rely on them implicitly, including a wide
variety of both deep learning and physics-based techniques. While kernels for
other types of data are well-studied theoretically, the structure of biological
sequence space (discrete, variable length sequences), as well as biological
notions of sequence similarity, present unique mathematical challenges. We
formally analyze how well kernels for biological sequences can approximate
arbitrary functions on sequence space and how well they can distinguish
different sequence distributions. In particular, we establish conditions under
which biological sequence kernels are universal, characteristic and metrize the
space of distributions. We show that a large number of existing kernel-based
machine learning methods for biological sequences fail to meet our conditions
and can as a consequence fail severely. We develop straightforward and
computationally tractable ways of modifying existing kernels to satisfy our
conditions, imbuing them with strong guarantees on accuracy and reliability.
Our proof techniques build on and extend the theory of kernels with discrete
masses. We illustrate our theoretical results in simulation and on real
biological data sets.
- Abstract(参考訳): 機械学習を生物配列に適用する - dna、rna、タンパク質は、人間の健康、環境持続可能性、基本的な生物学的理解を前進させる巨大な可能性を秘めている。
しかし、既存の機械学習手法の多くは、この問題領域では効果がなく、信頼できない。
我々はこれらの課題をカーネルのレンズを通して理論的に研究する。
カーネルに基づく手法はユビキタスであり、分子表現型予測、新規タンパク質の設計、配列分布の比較などに用いられる。
カーネルを明示的に使用しない多くのメソッドは、ディープラーニングと物理ベースの技術の両方を含む、暗黙的にそれらに依存している。
他の種類のデータに対するカーネルは理論的によく研究されているが、生物学的シーケンス空間(離散、可変長列)の構造や、シーケンス類似性の生物学的概念は、ユニークな数学的課題を呈している。
生物配列の核が配列空間上の任意の関数を近似し、異なる配列分布を区別できるかどうかを形式的に解析する。
特に,生物系列核が普遍的かつ特性的であり,分布の空間をメトリゼーションする条件を定式化する。
生物配列に対する既存のカーネルベースの機械学習手法の多くは,我々の条件に適合せず,結果として深刻な失敗を生じさせる可能性がある。
我々は、既存のカーネルを条件を満たすように変更し、精度と信頼性を強く保証する、単純で計算可能な方法を開発した。
我々の証明技術は、離散質量で核の理論を構築し拡張する。
シミュレーションと実際の生体データを用いて理論的結果を示す。
関連論文リスト
- On kernel-based statistical learning in the mean field limit [7.2494787805712395]
機械学習の多くの応用において、多数の変数が考慮されている。
入力変数の数が無限大になる状況を考える。
特に、経験的および無限サンプル解の平均場収束性を示す。
論文 参考訳(メタデータ) (2023-10-27T11:42:56Z) - PhyloGFN: Phylogenetic inference with generative flow networks [57.104166650526416]
本稿では,系統学における2つの中核的問題に対処するための生成フローネットワーク(GFlowNets)の枠組みを紹介する。
GFlowNetsは複雑な構造をサンプリングするのに適しているため、木トポロジー上の多重モード後部分布を探索し、サンプリングするのに自然な選択である。
我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。
論文 参考訳(メタデータ) (2023-10-12T23:46:08Z) - Higher-order topological kernels via quantum computation [68.8204255655161]
トポロジカルデータ分析(TDA)は、複雑なデータから意味のある洞察を抽出する強力なツールとして登場した。
本稿では,ベッチ曲線の次数増加に基づくBettiカーネルの量子的定義法を提案する。
論文 参考訳(メタデータ) (2023-07-14T14:48:52Z) - Fast and Functional Structured Data Generators Rooted in
Out-of-Equilibrium Physics [62.997667081978825]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Towards Predicting Equilibrium Distributions for Molecular Systems with
Deep Learning [60.02391969049972]
本稿では,分子系の平衡分布を予測するために,分散グラフマー(DiG)と呼ばれる新しいディープラーニングフレームワークを導入する。
DiGはディープニューラルネットワークを用いて分子系の記述子に条件付き平衡分布に単純な分布を変換する。
論文 参考訳(メタデータ) (2023-06-08T17:12:08Z) - Reproducing kernel Hilbert spaces in the mean field limit [6.844996517347866]
カーネルはカーネルによって生成される関数空間であり、再生カーネルヒルベルト空間と呼ばれる。
カーネルの厳密な平均場極限を示し、ヒルベルト空間を再現する極限の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-02-28T09:46:44Z) - Stationary Kernels and Gaussian Processes on Lie Groups and their
Homogeneous Spaces II: non-compact symmetric spaces [63.79710443490585]
対称性は、考慮できる事前情報の最も基本的な形態の1つである。
本研究では,非ユークリッド空間の非常に大きなクラス上に定常ガウス過程を構築するための構築的および実践的手法を開発する。
論文 参考訳(メタデータ) (2023-01-30T17:27:12Z) - Interpolation with the polynomial kernels [5.8720142291102135]
カーネルは機械学習で広く使われており、カーネルベースの回帰モデルを開発するためのデフォルトの選択肢の1つである。
厳密な正定性がないため、数値解析ではほとんど使われない。
本論文は,これらのカーネルとその関連アルゴリズムの研究において,いくつかの初期結果を確立することを目的としている。
論文 参考訳(メタデータ) (2022-12-15T08:30:23Z) - BASiNETEntropy: an alignment-free method for classification of
biological sequences through complex networks and entropy maximization [0.0]
本研究は, 複雑なネットワークとエントロピーによる生物配列の分類法を提案する。
最大エントロピー原理は、RNAクラスに関する最も情報性の高いエッジを同定し、フィルターされた複雑なネットワークを生成するために提案される。
提案手法は13種の異なるRNAクラスの分類において評価された。
論文 参考訳(メタデータ) (2022-03-24T14:19:43Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。