論文の概要: Biological Sequence Kernels with Guaranteed Flexibility
- arxiv url: http://arxiv.org/abs/2304.03775v1
- Date: Thu, 6 Apr 2023 14:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:50:19.206767
- Title: Biological Sequence Kernels with Guaranteed Flexibility
- Title(参考訳): 柔軟性を保証した生物配列核
- Authors: Alan Nawzad Amin, Eli Nathan Weinstein, Debora Susan Marks
- Abstract要約: カーネルは、分子の表現型を予測し、新しいタンパク質を設計し、配列の分布を比較するなどするために使用される。
生物配列のカーネルが、配列空間上の任意の関数を近似し、どのように異なる配列分布を区別できるかを解析する。
生物配列に対する多数の既存のカーネルベースの機械学習手法が我々の条件を満たすことができず、結果として深刻な失敗を生ずる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Applying machine learning to biological sequences - DNA, RNA and protein -
has enormous potential to advance human health, environmental sustainability,
and fundamental biological understanding. However, many existing machine
learning methods are ineffective or unreliable in this problem domain. We study
these challenges theoretically, through the lens of kernels. Methods based on
kernels are ubiquitous: they are used to predict molecular phenotypes, design
novel proteins, compare sequence distributions, and more. Many methods that do
not use kernels explicitly still rely on them implicitly, including a wide
variety of both deep learning and physics-based techniques. While kernels for
other types of data are well-studied theoretically, the structure of biological
sequence space (discrete, variable length sequences), as well as biological
notions of sequence similarity, present unique mathematical challenges. We
formally analyze how well kernels for biological sequences can approximate
arbitrary functions on sequence space and how well they can distinguish
different sequence distributions. In particular, we establish conditions under
which biological sequence kernels are universal, characteristic and metrize the
space of distributions. We show that a large number of existing kernel-based
machine learning methods for biological sequences fail to meet our conditions
and can as a consequence fail severely. We develop straightforward and
computationally tractable ways of modifying existing kernels to satisfy our
conditions, imbuing them with strong guarantees on accuracy and reliability.
Our proof techniques build on and extend the theory of kernels with discrete
masses. We illustrate our theoretical results in simulation and on real
biological data sets.
- Abstract(参考訳): 機械学習を生物配列に適用する - dna、rna、タンパク質は、人間の健康、環境持続可能性、基本的な生物学的理解を前進させる巨大な可能性を秘めている。
しかし、既存の機械学習手法の多くは、この問題領域では効果がなく、信頼できない。
我々はこれらの課題をカーネルのレンズを通して理論的に研究する。
カーネルに基づく手法はユビキタスであり、分子表現型予測、新規タンパク質の設計、配列分布の比較などに用いられる。
カーネルを明示的に使用しない多くのメソッドは、ディープラーニングと物理ベースの技術の両方を含む、暗黙的にそれらに依存している。
他の種類のデータに対するカーネルは理論的によく研究されているが、生物学的シーケンス空間(離散、可変長列)の構造や、シーケンス類似性の生物学的概念は、ユニークな数学的課題を呈している。
生物配列の核が配列空間上の任意の関数を近似し、異なる配列分布を区別できるかどうかを形式的に解析する。
特に,生物系列核が普遍的かつ特性的であり,分布の空間をメトリゼーションする条件を定式化する。
生物配列に対する既存のカーネルベースの機械学習手法の多くは,我々の条件に適合せず,結果として深刻な失敗を生じさせる可能性がある。
我々は、既存のカーネルを条件を満たすように変更し、精度と信頼性を強く保証する、単純で計算可能な方法を開発した。
我々の証明技術は、離散質量で核の理論を構築し拡張する。
シミュレーションと実際の生体データを用いて理論的結果を示す。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Don't Cut Corners: Exact Conditions for Modularity in Biologically Inspired Representations [52.48094670415497]
我々は、生物にインスパイアされた表現が、ソース変数(ソース)に関してモジュール化されるときの理論を開発する。
我々は、最適な生物学的にインスパイアされたリニアオートエンコーダのニューロンがモジュラー化されるかどうかを判断する情報源のサンプルに対して、必要かつ十分な条件を導出する。
我々の理論はどんなデータセットにも当てはまり、以前の研究で研究された統計的な独立性よりもはるかに長い。
論文 参考訳(メタデータ) (2024-10-08T17:41:37Z) - Nonparametric independence tests in high-dimensional settings, with applications to the genetics of complex disease [55.2480439325792]
遺伝子データの支持空間における適切な事前測定構造の定義が,このような検査に新たなアプローチをもたらすことを示す。
各問題に対して、数学的結果、シミュレーションおよび実データへの適用を提供する。
論文 参考訳(メタデータ) (2024-07-29T01:00:53Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。
我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。
我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文 参考訳(メタデータ) (2024-06-20T09:44:53Z) - PhyloGFN: Phylogenetic inference with generative flow networks [57.104166650526416]
本稿では,系統学における2つの中核的問題に対処するための生成フローネットワーク(GFlowNets)の枠組みを紹介する。
GFlowNetsは複雑な構造をサンプリングするのに適しているため、木トポロジー上の多重モード後部分布を探索し、サンプリングするのに自然な選択である。
我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。
論文 参考訳(メタデータ) (2023-10-12T23:46:08Z) - Higher-order topological kernels via quantum computation [68.8204255655161]
トポロジカルデータ分析(TDA)は、複雑なデータから意味のある洞察を抽出する強力なツールとして登場した。
本稿では,ベッチ曲線の次数増加に基づくBettiカーネルの量子的定義法を提案する。
論文 参考訳(メタデータ) (2023-07-14T14:48:52Z) - Reproducing kernel Hilbert spaces in the mean field limit [6.844996517347866]
カーネルはカーネルによって生成される関数空間であり、再生カーネルヒルベルト空間と呼ばれる。
カーネルの厳密な平均場極限を示し、ヒルベルト空間を再現する極限の詳細な解析を行う。
論文 参考訳(メタデータ) (2023-02-28T09:46:44Z) - BASiNETEntropy: an alignment-free method for classification of
biological sequences through complex networks and entropy maximization [0.0]
本研究は, 複雑なネットワークとエントロピーによる生物配列の分類法を提案する。
最大エントロピー原理は、RNAクラスに関する最も情報性の高いエッジを同定し、フィルターされた複雑なネットワークを生成するために提案される。
提案手法は13種の異なるRNAクラスの分類において評価された。
論文 参考訳(メタデータ) (2022-03-24T14:19:43Z) - Deep metric learning improves lab of origin prediction of genetically
engineered plasmids [63.05016513788047]
遺伝工学の属性(GEA)は、配列-ラブの関連を作る能力である。
本稿では,計量学習に基づいて,最も可能性の高い実験室をランク付けする手法を提案する。
我々は、特定の実験室のプラスミド配列のキーシグネチャを抽出することができ、モデル出力の解釈可能な検査を可能にする。
論文 参考訳(メタデータ) (2021-11-24T16:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。