Fugu-MT 論文翻訳(概要): Numeric Lyndon-based feature embedding of sequencing reads for machine learning approaches

論文の概要: Numeric Lyndon-based feature embedding of sequencing reads for machine learning approaches

arxiv url: http://arxiv.org/abs/2202.13884v1
Date: Mon, 28 Feb 2022 15:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 18:21:18.195319
Title: Numeric Lyndon-based feature embedding of sequencing reads for machine learning approaches
Title（参考訳）: 機械学習アプローチのための数値リンドンに基づくシーケンシング読み取りの特徴埋め込み
Authors: Paola Bonizzoni (1), Matteo Costantini (1), Clelia De Felice (2), Alessia Petescia (1), Yuri Pirola (1), Marco Previtali (1), Raffaella Rizzi (1), Jens Stoye (3), Rocco Zaccagnino (2), Rosalba Zizza (2) ((1) University of Milano-Bicocca, (2) University of Salerno, (3) University of Bielefeld)
Abstract要約: 指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。私たちは、RNA-Seqの読み込みを表すために指紋を使用し、それらが起源である可能性が高い遺伝子にそれらを割り当てます。本稿では,Lyndon をベースとしたシークエンシング手法である lyn2vec の実装について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Feature embedding methods have been proposed in literature to represent sequences as numeric vectors to be used in some bioinformatics investigations, such as family classification and protein structure prediction. Recent theoretical results showed that the well-known Lyndon factorization preserves common factors in overlapping strings. Surprisingly, the fingerprint of a sequencing read, which is the sequence of lengths of consecutive factors in variants of the Lyndon factorization of the read, is effective in preserving sequence similarities, suggesting it as basis for the definition of novels representations of sequencing reads. We propose a novel feature embedding method for Next-Generation Sequencing (NGS) data using the notion of fingerprint. We provide a theoretical and experimental framework to estimate the behaviour of fingerprints and of the k-mers extracted from it, called k-fingers, as possible feature embeddings for sequencing reads. As a case study to assess the effectiveness of such embeddings, we use fingerprints to represent RNA-Seq reads and to assign them to the most likely gene from which they were originated as fragments of transcripts of the gene. We provide an implementation of the proposed method in the tool lyn2vec, which produces Lyndon-based feature embeddings of sequencing reads.
Abstract（参考訳）: 家族分類やタンパク質構造予測などのバイオインフォマティクス研究において、配列を数値ベクトルとして表現するための特徴埋め込み法が文献で提案されている。最近の理論的結果は、よく知られたリンドン分解が重なり合う弦の共通因子を保存することを示した。驚くべきことに、リードのリンドン因子分解の変種における連続する因子の長さの列であるシークエンシングリードの指紋は、配列の類似性を保存するのに有効であり、シークエンシングリードの新規表現の定義の基礎となっている。指紋を用いたNGS(Next-Generation Sequencing)データに対する新しい特徴埋め込み手法を提案する。我々は,kフィンガーと呼ばれる指紋およびそれから抽出したk-merの挙動を,可能な特徴埋め込みとして推定する理論的,実験的枠組みを提供する。このような組込みの有効性を評価するためのケーススタディとして、rna-seqの読み出しを表現し、それらの遺伝子が遺伝子の転写産物の断片として起源を持つ最も可能性の高い遺伝子に割り当てるために指紋を用いる。提案手法をlyn2vecで実装し,シーケンシング読み取りのlyndonに基づく特徴埋め込みを生成する。

関連論文リスト

ProteoKnight: Convolution-based phage virion protein classification and uncertainty analysis [0.0]
本稿では,既存の手法における空間制約に対処する画像ベース符号化手法であるProteoKnightを紹介する。本研究はモンテカルロ・ドロップアウトによるバイナリPVP分類における予測の不確実性を評価する。我々の実験は、最先端の手法に匹敵する二分法で90.8%の精度を達成した。
論文参考訳（メタデータ） (2025-08-10T13:45:08Z)
Sequence Analysis Using the Bezier Curve [3.9052860539161918]
本稿では,B'ezier曲線を要素マッピングに用いた新しい画像変換手法を提案する。要素を曲線にマッピングすると、各画像のシーケンス情報表現が強化される。
論文参考訳（メタデータ） (2025-03-18T15:40:46Z)
Learning to Discover Regulatory Elements for Gene Expression Prediction [59.470991831978516]
Seq2Expは、ターゲット遺伝子発現を駆動する制御要素を発見し、抽出するために設計されたSequence to Expressionネットワークである。本手法は, エピジェノミックシグナル, DNA 配列とその関連因子の因果関係を捉える。
論文参考訳（メタデータ） (2025-02-19T03:25:49Z)
Associative Knowledge Graphs for Efficient Sequence Storage and Retrieval [0.9786690381850353]
連想知識グラフ(AKG)は、グラフ構造を利用してシーケンスをエンコードすることで、有望なアプローチを提供する。本研究では,シークエンス保存と検索のための新しい構造的アプローチを提案する。計算神経科学とバイオインフォマティクスの幅広い応用により、この手法はシーケンスベースのメモリタスクにスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2024-11-19T13:00:31Z)
Estimating the Influence of Sequentially Correlated Literary Properties in Textual Classification: A Data-Centric Hypothesis-Testing Approach [4.161155428666988]
逐次的に相関した文学的特性の影響を定量化するために,データ中心の仮説テストフレームワークを導入する。従来の(単語n-gramと文字k-mer)とニューラル(対照的に訓練された)埋め込みを、教師なしと教師なしの両方の分類設定で比較する。その結果, 逐次相関の制御は偽陽性の低減に不可欠であることが示唆された。
論文参考訳（メタデータ） (2024-11-07T18:28:40Z)
Unbalanced Fingerprint Classification for Hybrid Fingerprint Orientation Maps [1.6229112905195138]
本研究は,乾燥,標準,湿潤の早期に指紋を識別し,誤検出の原因を標的とした。スキャン画像は,提案した特徴点と相関した明瞭度に基づいて分類される。また,ニューラルネットワークに基づく分類手法よりも,新しい手法の方が優れていることがわかった。
論文参考訳（メタデータ） (2024-09-01T16:53:02Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
On the Sequence Evaluation based on Stochastic Processes [17.497842325320825]
負の対数型エンコーダを用いて長文列のダイナミクスを学習するための新しい手法を提案する。また、シーケンスコヒーレンスを測定する長文評価のための確率に基づく評価指標も導入する。
論文参考訳（メタデータ） (2024-05-28T02:33:38Z)
Retrieving Continuous Time Event Sequences using Neural Temporal Point Processes with Learnable Hashing [24.963828650935913]
エンド・ツー・エンドのCTES検索に特化して設計された一級フレームワークであるNeuroSeqRetを提案する。我々は,精度と効率のトレードオフに基づいて,異なる種類のアプリケーションに対する妥当性モデルの4つの変種を開発する。実験の結果,NeuroSeqRetの精度は向上し,ハッシュ機構の有効性も示された。
論文参考訳（メタデータ） (2023-07-13T18:54:50Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Learning Temporal Point Processes for Efficient Retrieval of Continuous Time Event Sequences [24.963828650935913]
NEUROSEQRETは,あるクエリシーケンスに対して,関連する連続時間イベントシーケンスの検索とランク付けを学習する。精度と効率のトレードオフを提供する関係モデルの2つの変種を開発する。いくつかのデータセットを用いて行った実験では、NEUROSEQRETの精度がいくつかのベースラインを超えていることが示されている。
論文参考訳（メタデータ） (2022-02-17T11:16:31Z)
Inducing Transformer's Compositional Generalization Ability via Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文参考訳（メタデータ） (2021-09-30T16:41:19Z)
Complexity-based speciation and genotype representation for neuroevolution [81.21462458089142]
本稿では、進化するネットワークを隠されたニューロンの数に基づいて種に分類する神経進化の種分化原理を提案する。提案された種分化原理は、種および生態系全体における多様性の促進と保存を目的として設計されたいくつかの技術で採用されている。
論文参考訳（メタデータ） (2020-10-11T06:26:56Z)
Background Knowledge Injection for Interpretable Sequence Classification [13.074542699823933]
本稿では,予測能力と解釈可能性のバランスをとる新しいシーケンス学習アルゴリズムを提案する。我々は、単語やグラフの埋め込みによって注入された背景知識によって生成されるシンボル群を用いて、古典的なサブシーケンス特徴空間を拡張した。また,シンボル埋め込みに基づく記号特徴集合の解釈可能性を評価するための新しい尺度を提案する。
論文参考訳（メタデータ） (2020-06-25T08:36:05Z)
Learned Factor Graphs for Inference from Stationary Time Sequences [107.63351413549992]
定常時間列のためのモデルベースアルゴリズムとデータ駆動型MLツールを組み合わせたフレームワークを提案する。ニューラルネットワークは、時系列の分布を記述する因子グラフの特定のコンポーネントを別々に学習するために開発された。本稿では,学習された定常因子グラフに基づく推論アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-05T07:06:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。