論文の概要: A Big Data Approach for Sequences Indexing on the Cloud via Burrows
Wheeler Transform
- arxiv url: http://arxiv.org/abs/2007.10095v1
- Date: Mon, 20 Jul 2020 13:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 14:33:54.053538
- Title: A Big Data Approach for Sequences Indexing on the Cloud via Burrows
Wheeler Transform
- Title(参考訳): Burrows Wheeler変換によるクラウド上のシーケンスインデックス作成のためのビッグデータアプローチ
- Authors: Mario Randazzo, Simona E. Rombo
- Abstract要約: インデクシングシーケンスデータは、精密医療の文脈において重要である。
本稿では,ビッグデータ技術を利用したBurrows Wheeler変換の計算アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.2005299372367689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indexing sequence data is important in the context of Precision Medicine,
where large amounts of ``omics'' data have to be daily collected and analyzed
in order to categorize patients and identify the most effective therapies. Here
we propose an algorithm for the computation of Burrows Wheeler transform
relying on Big Data technologies, i.e., Apache Spark and Hadoop. Our approach
is the first that distributes the index computation and not only the input
dataset, allowing to fully benefit of the available cloud resources.
- Abstract(参考訳): インデクシングシーケンスデータは、患者を分類し、最も効果的な治療を識別するために、大量の‘omics’データを毎日収集して分析する必要がある精密医学の文脈において重要である。
本稿では,ビッグデータ技術,すなわちApache SparkとHadoopに依存するBurrows Wheeler変換の計算アルゴリズムを提案する。
当社のアプローチは,入力データセットだけでなく,インデックス計算を分散する最初の方法です。
関連論文リスト
- A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - Research on Efficient Fuzzy Clustering Method Based on Local Fuzzy
Granular balls [67.33923111887933]
本稿では,データをグラニュラーボールを用いてファジィにイテレーションし,その位置にある2つのグラニュラーボールのみをデータのメンバーシップ度として検討する。
ファジィグラニュラーボールセットは、異なるデータシナリオに直面して、より多くの処理方法を使用することができる。
論文 参考訳(メタデータ) (2023-03-07T01:52:55Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Scalable Neural Data Server: A Data Recommender for Transfer Learning [70.06289658553675]
転送学習は、下流のパフォーマンスを改善するために追加データを活用する一般的な戦略である。
Nerve Data Server (NDS)は、特定の下流タスクに関連するデータを推奨する検索エンジンで、この問題に対処するためにこれまで提案されていた。
NDSは、データソースでトレーニングされた専門家の混合物を使用して、各ソースと下流タスクの類似性を推定する。
SNDSは、中間データセットに近接して、データソースと下流タスクの両方を表現します。
論文 参考訳(メタデータ) (2022-06-19T12:07:32Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Efficient Analysis of COVID-19 Clinical Data using Machine Learning
Models [0.0]
膨大な量のデータとケーススタディが公開されており、研究者がトレンドを見つけるユニークな機会を提供している。
機械学習ベースのアルゴリズムをこのビッグデータに適用することは、この目的を達成するための自然なアプローチである。
効率的な特徴選択アルゴリズムにより,ほとんどの場合,90%以上の予測精度が得られることを示す。
論文 参考訳(メタデータ) (2021-10-18T20:06:01Z) - Data Segmentation via t-SNE, DBSCAN, and Random Forest [0.0]
本研究では、データを自然クラスタに分割し、最も重要な特徴に基づいて各クラスタの特徴プロファイルを生成するデータセグメンテーションアルゴリズムを提案する。
このアルゴリズムを解説し、Instagramの実際のソーシャルメディアサイトデータと同様に、IrisとMNISTデータセットを用いてケーススタディを提供する。
論文 参考訳(メタデータ) (2020-10-26T15:59:15Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。