論文の概要: Blind Biological Sequence Denoising with Self-Supervised Set Learning
- arxiv url: http://arxiv.org/abs/2309.01670v1
- Date: Mon, 4 Sep 2023 15:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 18:01:42.850356
- Title: Blind Biological Sequence Denoising with Self-Supervised Set Learning
- Title(参考訳): 自己教師付きセットラーニングによるブラインドバイオシークエンシング
- Authors: Nathan Ng, Ji Won Park, Jae Hyeon Lee, Ryan Lewis Kelly, Stephen Ra,
Kyunghyun Cho
- Abstract要約: クリーンソースのシーケンスラベルを直接観察することなく、シーケンスの集合を盲目的に識別する新しい手法を提案する。
提案手法であるSelf-Supervised Set Learning (SSSL) は,サブリードを埋め込み空間に集約し,サブリードの中間点として潜時空間とシークエンス空間の両方に1セットの埋め込みを推定する。
長読DNAデータのシミュレーション実験では、SSSLメソッドは17%のエラーで$leq 6$subreadsの小さな読み込みを、8%のエラーで$>6$subreadsの大規模な読み込みを、最高のベースラインよりも8%少ないエラーで識別する。
- 参考スコア(独自算出の注目度): 34.41665328319336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological sequence analysis relies on the ability to denoise the imprecise
output of sequencing platforms. We consider a common setting where a short
sequence is read out repeatedly using a high-throughput long-read platform to
generate multiple subreads, or noisy observations of the same sequence.
Denoising these subreads with alignment-based approaches often fails when too
few subreads are available or error rates are too high. In this paper, we
propose a novel method for blindly denoising sets of sequences without directly
observing clean source sequence labels. Our method, Self-Supervised Set
Learning (SSSL), gathers subreads together in an embedding space and estimates
a single set embedding as the midpoint of the subreads in both the latent and
sequence spaces. This set embedding represents the "average" of the subreads
and can be decoded into a prediction of the clean sequence. In experiments on
simulated long-read DNA data, SSSL methods denoise small reads of $\leq 6$
subreads with 17% fewer errors and large reads of $>6$ subreads with 8% fewer
errors compared to the best baseline. On a real dataset of antibody sequences,
SSSL improves over baselines on two self-supervised metrics, with a significant
improvement on difficult small reads that comprise over 60% of the test set. By
accurately denoising these reads, SSSL promises to better realize the potential
of high-throughput DNA sequencing data for downstream scientific applications.
- Abstract(参考訳): 生物学的シーケンス解析は、シークエンシングプラットフォームの不正確な出力を識別する能力に依存する。
我々は,複数のサブリードを生成するために,高スループット長読プラットフォームを用いて短いシーケンスを繰り返し読み出す,あるいは同じシーケンスのノイズの多い観測を行うような,一般的な設定を考える。
これらのサブリードをアライメントベースのアプローチで表示することは、あまりに少ないサブリードやエラー率が高すぎると失敗することが多い。
本稿では,クリーンソースのシーケンスラベルを直接観察することなく,シーケンスの集合を盲目的に識別する新しい手法を提案する。
提案手法であるSelf-Supervised Set Learning (SSSL) は,サブリードを埋め込み空間に集約し,サブリードの中間点として潜時空間とシークエンス空間の両方に1セットの埋め込みを推定する。
この集合埋め込みはサブリードの「平均値」を表し、クリーンシーケンスの予測にデコードすることができる。
長読DNAデータのシミュレーション実験では、SSSLメソッドは17%のエラー率で$\leq 6$subreadsの小さな読み込みと、8%のエラー率で$>6$subreadsの大規模な読み込みを識別する。
抗体配列の実際のデータセットでは、ssslは2つの自己教師付きメトリクスのベースラインよりも改善され、テストセットの60%以上を占める難しい小さな読み込みを大幅に改善する。
これらの読み出しを正確に識別することで、SSSLは下流の科学的応用のための高スループットDNAシークエンシングデータの可能性をよりよく認識することを約束する。
関連論文リスト
- Extracting Clean and Balanced Subset for Noisy Long-tailed Classification [66.47809135771698]
そこで我々は,分布マッチングの観点から,クラスプロトタイプを用いた新しい擬似ラベリング手法を開発した。
手動で特定の確率尺度を設定することで、ノイズと長い尾を持つデータの副作用を同時に減らすことができる。
本手法は, クリーンなラベル付きクラスバランスサブセットを抽出し, ラベルノイズ付きロングテール分類において, 効果的な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-10T07:34:37Z) - ViralVectors: Compact and Scalable Alignment-free Virome Feature
Generation [0.7874708385247353]
SARS-CoV-2のシークエンシングデータの量は、どのウイルスよりも数桁大きい。
本稿では,効率的な下流解析が可能なビロメシークエンシングデータからコンパクトなベクトル生成であるEmphsignaturesを提案する。
論文 参考訳(メタデータ) (2023-04-06T06:46:17Z) - Reads2Vec: Efficient Embedding of Raw High-Throughput Sequencing Reads
Data [2.362412515574206]
本稿では,アライメント不要な埋め込み手法であるReads2Vecを提案する。
シミュレーションデータを用いた実験により,提案手法は既存のアライメントフリーベースラインとは対照的に,より優れた分類結果とより優れたクラスタリング特性が得られることが示された。
論文 参考訳(メタデータ) (2022-11-15T16:19:23Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - ProMix: Combating Label Noise via Maximizing Clean Sample Utility [18.305972075220765]
ProMixは、パフォーマンス向上のためのクリーンサンプルの有用性を最大化するフレームワークである。
CIFAR-Nデータセットの平均2.48%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-21T03:01:04Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Deep Low-Density Separation for Semi-Supervised Classification [0.0]
組込み機能に低密度分離を適用した新しいハイブリッド手法を提案する。
本手法は,比較的少数の手作業分類例から,何千人もの未ラベルユーザを効果的に分類する。
論文 参考訳(メタデータ) (2022-05-22T11:00:55Z) - GapPredict: A Language Model for Resolving Gaps in Draft Genome
Assemblies [0.13999481573773073]
キャラクタレベルの言語モデルを用いて,足場間隙における未解決ヌクレオチドを予測するツールであるGapPredictを紹介する。
我々はGapPredictを最先端のギャップ埋めツールと比較し、前者は65.6%のギャップを埋めることができることを示した。
論文 参考訳(メタデータ) (2021-05-21T19:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。