論文の概要: Numeric Lyndon-based feature embedding of sequencing reads for machine
learning approaches
- arxiv url: http://arxiv.org/abs/2202.13884v1
- Date: Mon, 28 Feb 2022 15:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:21:18.195319
- Title: Numeric Lyndon-based feature embedding of sequencing reads for machine
learning approaches
- Title(参考訳): 機械学習アプローチのための数値リンドンに基づくシーケンシング読み取りの特徴埋め込み
- Authors: Paola Bonizzoni (1), Matteo Costantini (1), Clelia De Felice (2),
Alessia Petescia (1), Yuri Pirola (1), Marco Previtali (1), Raffaella Rizzi
(1), Jens Stoye (3), Rocco Zaccagnino (2), Rosalba Zizza (2) ((1) University
of Milano-Bicocca, (2) University of Salerno, (3) University of Bielefeld)
- Abstract要約: 指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。
私たちは、RNA-Seqの読み込みを表すために指紋を使用し、それらが起源である可能性が高い遺伝子にそれらを割り当てます。
本稿では,Lyndon をベースとしたシークエンシング手法である lyn2vec の実装について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feature embedding methods have been proposed in literature to represent
sequences as numeric vectors to be used in some bioinformatics investigations,
such as family classification and protein structure prediction. Recent
theoretical results showed that the well-known Lyndon factorization preserves
common factors in overlapping strings. Surprisingly, the fingerprint of a
sequencing read, which is the sequence of lengths of consecutive factors in
variants of the Lyndon factorization of the read, is effective in preserving
sequence similarities, suggesting it as basis for the definition of novels
representations of sequencing reads. We propose a novel feature embedding
method for Next-Generation Sequencing (NGS) data using the notion of
fingerprint. We provide a theoretical and experimental framework to estimate
the behaviour of fingerprints and of the k-mers extracted from it, called
k-fingers, as possible feature embeddings for sequencing reads. As a case study
to assess the effectiveness of such embeddings, we use fingerprints to
represent RNA-Seq reads and to assign them to the most likely gene from which
they were originated as fragments of transcripts of the gene. We provide an
implementation of the proposed method in the tool lyn2vec, which produces
Lyndon-based feature embeddings of sequencing reads.
- Abstract(参考訳): 家族分類やタンパク質構造予測などのバイオインフォマティクス研究において、配列を数値ベクトルとして表現するための特徴埋め込み法が文献で提案されている。
最近の理論的結果は、よく知られたリンドン分解が重なり合う弦の共通因子を保存することを示した。
驚くべきことに、リードのリンドン因子分解の変種における連続する因子の長さの列であるシークエンシングリードの指紋は、配列の類似性を保存するのに有効であり、シークエンシングリードの新規表現の定義の基礎となっている。
指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。
我々は,kフィンガーと呼ばれる指紋およびそれから抽出したk-merの挙動を,可能な特徴埋め込みとして推定する理論的,実験的枠組みを提供する。
このような組込みの有効性を評価するためのケーススタディとして、rna-seqの読み出しを表現し、それらの遺伝子が遺伝子の転写産物の断片として起源を持つ最も可能性の高い遺伝子に割り当てるために指紋を用いる。
提案手法をlyn2vecで実装し,シーケンシング読み取りのlyndonに基づく特徴埋め込みを生成する。
関連論文リスト
- Retrieving Continuous Time Event Sequences using Neural Temporal Point
Processes with Learnable Hashing [24.963828650935913]
エンド・ツー・エンドのCTES検索に特化して設計された一級フレームワークであるNeuroSeqRetを提案する。
我々は,精度と効率のトレードオフに基づいて,異なる種類のアプリケーションに対する妥当性モデルの4つの変種を開発する。
実験の結果,NeuroSeqRetの精度は向上し,ハッシュ機構の有効性も示された。
論文 参考訳(メタデータ) (2023-07-13T18:54:50Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Retrieval-Augmented Classification with Decoupled Representation [31.662843145399044]
そこで本研究では,KNN(Kk$-nearest-neighbor)に基づく拡張分類検索手法を提案する。
分類と検索の共有表現がパフォーマンスを損なうことや,トレーニングの不安定化につながることが判明した。
本手法は,幅広い分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-23T06:33:06Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data [2.362412515574206]
本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-15T16:19:23Z) - Learning Temporal Point Processes for Efficient Retrieval of Continuous
Time Event Sequences [24.963828650935913]
NEUROSEQRETは,あるクエリシーケンスに対して,関連する連続時間イベントシーケンスの検索とランク付けを学習する。
精度と効率のトレードオフを提供する関係モデルの2つの変種を開発する。
いくつかのデータセットを用いて行った実験では、NEUROSEQRETの精度がいくつかのベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2022-02-17T11:16:31Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Complexity-based speciation and genotype representation for
neuroevolution [81.21462458089142]
本稿では、進化するネットワークを隠されたニューロンの数に基づいて種に分類する神経進化の種分化原理を提案する。
提案された種分化原理は、種および生態系全体における多様性の促進と保存を目的として設計されたいくつかの技術で採用されている。
論文 参考訳(メタデータ) (2020-10-11T06:26:56Z) - Background Knowledge Injection for Interpretable Sequence Classification [13.074542699823933]
本稿では,予測能力と解釈可能性のバランスをとる新しいシーケンス学習アルゴリズムを提案する。
我々は、単語やグラフの埋め込みによって注入された背景知識によって生成されるシンボル群を用いて、古典的なサブシーケンス特徴空間を拡張した。
また,シンボル埋め込みに基づく記号特徴集合の解釈可能性を評価するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2020-06-25T08:36:05Z) - Learned Factor Graphs for Inference from Stationary Time Sequences [107.63351413549992]
定常時間列のためのモデルベースアルゴリズムとデータ駆動型MLツールを組み合わせたフレームワークを提案する。
ニューラルネットワークは、時系列の分布を記述する因子グラフの特定のコンポーネントを別々に学習するために開発された。
本稿では,学習された定常因子グラフに基づく推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。