論文の概要: EBIC: an open source software for high-dimensional and big data biclustering analyses
- arxiv url: http://arxiv.org/abs/1807.09932v2
- Date: Wed, 4 Sep 2024 17:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:56:29.383008
- Title: EBIC: an open source software for high-dimensional and big data biclustering analyses
- Title(参考訳): EBIC:高次元・ビッグデータビクラスタリング解析のためのオープンソースソフトウェア
- Authors: Patryk Orzechowski, Jason H. Moore,
- Abstract要約: 本稿では,遺伝データをマイニングする次世代ビクラスタリングアルゴリズムであるEBICの最新のリリースを紹介する。
この論文の主な貢献は、ビッグデータのサポートを追加し、大規模なゲノムデータマイニング分析を効率的に実行できるようにすることである。
EBICは、436,444行のDNAメチル化データセットを含む、さまざまなサイズのデータセットに適用された。
- 参考スコア(独自算出の注目度): 2.863279092948239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivation: In this paper we present the latest release of EBIC, a next-generation biclustering algorithm for mining genetic data. The major contribution of this paper is adding support for big data, making it possible to efficiently run large genomic data mining analyses. Additional enhancements include integration with R and Bioconductor and an option to remove influence of missing value on the final result. Results: EBIC was applied to datasets of different sizes, including a large DNA methylation dataset with 436,444 rows. For the largest dataset we observed over 6.6 fold speedup in computation time on a cluster of 8 GPUs compared to running the method on a single GPU. This proves high scalability of the algorithm. Availability: The latest version of EBIC could be downloaded from http://github.com/EpistasisLab/ebic . Installation and usage instructions are also available online.
- Abstract(参考訳): モチベーション:本論文では,遺伝データをマイニングするための次世代ビクラスタリングアルゴリズムであるEBICの最新のリリースについて述べる。
この論文の主な貢献は、ビッグデータのサポートを追加し、大規模なゲノムデータマイニング分析を効率的に実行できるようにすることである。
さらに、RとBioconductorとの統合や、最終的な結果に欠落した値の影響を取り除くオプションも追加されている。
結果:EBICは436,444行のDNAメチル化データセットを含む,異なるサイズのデータセットに適用された。
最も大きなデータセットでは、単一のGPU上でメソッドを実行するのと比較して、8GPUのクラスタ上での計算時間の6.6倍のスピードアップを観察しました。
これによりアルゴリズムのスケーラビリティが向上する。
可用性: EBICの最新バージョンはhttp://github.com/EpistasisLab/ebicからダウンロードできる。
インストールと利用の指示もオンラインで入手できる。
関連論文リスト
- Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - EGG-GAE: scalable graph neural networks for tabular data imputation [8.775728170359024]
本稿では,データ計算に欠ける新しいEdGe生成グラフオートエンコーダ(EGG-GAE)を提案する。
EGG-GAEは、入力データのランダムにサンプリングされたミニバッチで動作し、各アーキテクチャ層におけるミニバッチ間の接続性を自動的に推測する。
論文 参考訳(メタデータ) (2022-10-19T10:26:17Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - EBIC.JL -- an Efficient Implementation of Evolutionary Biclustering
Algorithm in Julia [59.422301529692454]
本稿では, Julia における最も正確なビクラスタリングアルゴリズムの実装である EBIC.JL を紹介する。
新たなバージョンでは,既存のEBICと同等の精度を維持しつつ,ほとんどの問題に対してより高速に収束することを示す。
論文 参考訳(メタデータ) (2021-05-03T22:30:38Z) - Multidimensional Scaling for Gene Sequence Data with Autoencoders [0.0]
本稿では、数百万の遺伝子配列を含むデータセットに容易にスケールできるオートエンコーダに基づく次元還元モデルを提案する。
提案モデルは現実世界の菌類遺伝子配列データセットを用いてDAMDSに対して評価される。
論文 参考訳(メタデータ) (2021-04-19T02:14:17Z) - SumGNN: Multi-typed Drug Interaction Prediction via Efficient Knowledge
Graph Summarization [64.56399911605286]
本稿では,サブグラフ抽出モジュールによって実現された知識要約グラフニューラルネットワークSumGNNを提案する。
SumGNNは5.54%まで最高のベースラインを上回り、データ関係の低いタイプでは特にパフォーマンスの向上が顕著である。
論文 参考訳(メタデータ) (2020-10-04T00:14:57Z) - HeAT -- a Distributed and GPU-accelerated Tensor Framework for Data
Analytics [0.0]
HeATは、大規模並列処理のための配列ベースの数値プログラミングフレームワークで、簡単に使えるNumPyライクなAPIがある。
HeATはPyTorchをノードローカルな熱心な実行エンジンとして使用し、MPIを介して任意の規模の大規模高性能コンピューティングシステムにワークロードを分散する。
同様のフレームワークと比較すると、HeATは最大2桁のスピードアップを達成する。
論文 参考訳(メタデータ) (2020-07-27T13:33:17Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。