論文の概要: Numeric Lyndon-based feature embedding of sequencing reads for machine
learning approaches
- arxiv url: http://arxiv.org/abs/2202.13884v1
- Date: Mon, 28 Feb 2022 15:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 18:21:18.195319
- Title: Numeric Lyndon-based feature embedding of sequencing reads for machine
learning approaches
- Title(参考訳): 機械学習アプローチのための数値リンドンに基づくシーケンシング読み取りの特徴埋め込み
- Authors: Paola Bonizzoni (1), Matteo Costantini (1), Clelia De Felice (2),
Alessia Petescia (1), Yuri Pirola (1), Marco Previtali (1), Raffaella Rizzi
(1), Jens Stoye (3), Rocco Zaccagnino (2), Rosalba Zizza (2) ((1) University
of Milano-Bicocca, (2) University of Salerno, (3) University of Bielefeld)
- Abstract要約: 指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。
私たちは、RNA-Seqの読み込みを表すために指紋を使用し、それらが起源である可能性が高い遺伝子にそれらを割り当てます。
本稿では,Lyndon をベースとしたシークエンシング手法である lyn2vec の実装について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Feature embedding methods have been proposed in literature to represent
sequences as numeric vectors to be used in some bioinformatics investigations,
such as family classification and protein structure prediction. Recent
theoretical results showed that the well-known Lyndon factorization preserves
common factors in overlapping strings. Surprisingly, the fingerprint of a
sequencing read, which is the sequence of lengths of consecutive factors in
variants of the Lyndon factorization of the read, is effective in preserving
sequence similarities, suggesting it as basis for the definition of novels
representations of sequencing reads. We propose a novel feature embedding
method for Next-Generation Sequencing (NGS) data using the notion of
fingerprint. We provide a theoretical and experimental framework to estimate
the behaviour of fingerprints and of the k-mers extracted from it, called
k-fingers, as possible feature embeddings for sequencing reads. As a case study
to assess the effectiveness of such embeddings, we use fingerprints to
represent RNA-Seq reads and to assign them to the most likely gene from which
they were originated as fragments of transcripts of the gene. We provide an
implementation of the proposed method in the tool lyn2vec, which produces
Lyndon-based feature embeddings of sequencing reads.
- Abstract(参考訳): 家族分類やタンパク質構造予測などのバイオインフォマティクス研究において、配列を数値ベクトルとして表現するための特徴埋め込み法が文献で提案されている。
最近の理論的結果は、よく知られたリンドン分解が重なり合う弦の共通因子を保存することを示した。
驚くべきことに、リードのリンドン因子分解の変種における連続する因子の長さの列であるシークエンシングリードの指紋は、配列の類似性を保存するのに有効であり、シークエンシングリードの新規表現の定義の基礎となっている。
指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。
我々は,kフィンガーと呼ばれる指紋およびそれから抽出したk-merの挙動を,可能な特徴埋め込みとして推定する理論的,実験的枠組みを提供する。
このような組込みの有効性を評価するためのケーススタディとして、rna-seqの読み出しを表現し、それらの遺伝子が遺伝子の転写産物の断片として起源を持つ最も可能性の高い遺伝子に割り当てるために指紋を用いる。
提案手法をlyn2vecで実装し,シーケンシング読み取りのlyndonに基づく特徴埋め込みを生成する。
関連論文リスト
- Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。
本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文 参考訳(メタデータ) (2025-02-19T03:25:49Z) - Unbalanced Fingerprint Classification for Hybrid Fingerprint Orientation Maps [1.6229112905195138]
本研究は,乾燥,標準,湿潤の早期に指紋を識別し,誤検出の原因を標的とした。
スキャン画像は,提案した特徴点と相関した明瞭度に基づいて分類される。
また,ニューラルネットワークに基づく分類手法よりも,新しい手法の方が優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:53:02Z) - On the Sequence Evaluation based on Stochastic Processes [17.497842325320825]
負の対数型エンコーダを用いて長文列のダイナミクスを学習するための新しい手法を提案する。
また、シーケンスコヒーレンスを測定する長文評価のための確率に基づく評価指標も導入する。
論文 参考訳(メタデータ) (2024-05-28T02:33:38Z) - Retrieving Continuous Time Event Sequences using Neural Temporal Point
Processes with Learnable Hashing [24.963828650935913]
エンド・ツー・エンドのCTES検索に特化して設計された一級フレームワークであるNeuroSeqRetを提案する。
我々は,精度と効率のトレードオフに基づいて,異なる種類のアプリケーションに対する妥当性モデルの4つの変種を開発する。
実験の結果,NeuroSeqRetの精度は向上し,ハッシュ機構の有効性も示された。
論文 参考訳(メタデータ) (2023-07-13T18:54:50Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Learning Temporal Point Processes for Efficient Retrieval of Continuous
Time Event Sequences [24.963828650935913]
NEUROSEQRETは,あるクエリシーケンスに対して,関連する連続時間イベントシーケンスの検索とランク付けを学習する。
精度と効率のトレードオフを提供する関係モデルの2つの変種を開発する。
いくつかのデータセットを用いて行った実験では、NEUROSEQRETの精度がいくつかのベースラインを超えていることが示されている。
論文 参考訳(メタデータ) (2022-02-17T11:16:31Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Complexity-based speciation and genotype representation for
neuroevolution [81.21462458089142]
本稿では、進化するネットワークを隠されたニューロンの数に基づいて種に分類する神経進化の種分化原理を提案する。
提案された種分化原理は、種および生態系全体における多様性の促進と保存を目的として設計されたいくつかの技術で採用されている。
論文 参考訳(メタデータ) (2020-10-11T06:26:56Z) - Background Knowledge Injection for Interpretable Sequence Classification [13.074542699823933]
本稿では,予測能力と解釈可能性のバランスをとる新しいシーケンス学習アルゴリズムを提案する。
我々は、単語やグラフの埋め込みによって注入された背景知識によって生成されるシンボル群を用いて、古典的なサブシーケンス特徴空間を拡張した。
また,シンボル埋め込みに基づく記号特徴集合の解釈可能性を評価するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2020-06-25T08:36:05Z) - Learned Factor Graphs for Inference from Stationary Time Sequences [107.63351413549992]
定常時間列のためのモデルベースアルゴリズムとデータ駆動型MLツールを組み合わせたフレームワークを提案する。
ニューラルネットワークは、時系列の分布を記述する因子グラフの特定のコンポーネントを別々に学習するために開発された。
本稿では,学習された定常因子グラフに基づく推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-05T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。