論文の概要: Enhancing non-Perl bioinformatic applications with Perl: Building novel, component based applications using Object Orientation, PDL, Alien, FFI, Inline and OpenMP
- arxiv url: http://arxiv.org/abs/2406.10271v1
- Date: Tue, 11 Jun 2024 18:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:21:32.635714
- Title: Enhancing non-Perl bioinformatic applications with Perl: Building novel, component based applications using Object Orientation, PDL, Alien, FFI, Inline and OpenMP
- Title(参考訳): Perlによる非Perlバイオインフォマティクス応用の強化: オブジェクト指向, PDL, Alien, FFI, Inline, OpenMP を用いた新しいコンポーネントベースアプリケーションの構築
- Authors: Christos Argyropoulos,
- Abstract要約: コンポーネントベースのソフトウェアエンジニアリング(CBSE)は、既存の再利用可能なソフトウェアコンポーネントを新しいアプリケーションに組み立てる方法論である。
Perlはこの分野で10年前まで広く使われていたが、最近のアプリケーションはBiioconductor/RまたはPythonを選択している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Component-Based Software Engineering (CBSE) is a methodology that assembles pre-existing, re-usable software components into new applications, which is particularly relevant for fast moving, data-intensive fields such as bioinformatics. While Perl was used extensively in this field until a decade ago, more recent applications opt for a Bioconductor/R or Python. This trend represents a significantly missed opportunity for the rapid generation of novel bioinformatic applications out of pre-existing components since Perl offers a variety of abstractions that can facilitate composition. In this paper, we illustrate the utility of Perl for CBSE through a combination of Object Oriented frameworks, the Perl Data Language and facilities for interfacing with non-Perl code through Foreign Function Interfaces and inlining of foreign source code. To do so, we enhance Polyester, a RNA sequencing simulator written in R, and edlib a fast sequence similarity search library based on the edit distance. The first case study illustrates the near effortless authoring of new, highly performant Perl modules for the simulation of random numbers using the GNU Scientific Library and PDL, and proposes Perl and Perl/C alternatives to the Python tool cutadapt that is used to "trim" polyA tails from biological sequences. For the edlib case, we leverage the power of metaclass programming to endow edlib with coarse, process based parallelism, through the Many Core Engine (MCE) module and fine grained parallelism through OpenMP, a C/C++/Fortran Application Programming Interface for shared memory multithreaded processing. These use cases provide proof-of-concept for the Bio::SeqAlignment framework, which can organize heterogeneous components in complex memory and command-line based workflows for the construction of novel bionformatic tools to analyze data from long-read sequencing, e.g. Nanopore, sequencing platforms.
- Abstract(参考訳): コンポーネントベースのソフトウェアエンジニアリング(CBSE)は、既存の再利用可能なソフトウェアコンポーネントを新しいアプリケーションに組み立てる方法論である。
Perlはこの分野で10年前まで広く使われていたが、最近のアプリケーションはBiioconductor/RまたはPythonを選択している。
この傾向は、Perlがコンポジションを容易にするための様々な抽象化を提供しているため、既存のコンポーネントから新しいバイオインフォマティクスアプリケーションを素早く生成する機会が著しく欠落していることを示している。
本稿では,オブジェクト指向フレームワーク,Perl Data Language,および外部関数インタフェースによる非Perlコードへのインターフェース,および外部ソースコードのインライン化によるCBSE用Perlの有用性について述べる。
そのため、Rで書かれたRNAシークエンシングシミュレータであるPolyesterを拡張し、編集距離に基づいて高速な配列類似性検索ライブラリをedlibする。
最初のケーススタディでは、GNU Scientific LibraryとPDLを使って乱数シミュレーションのために、新しい高性能なPerlモジュールをほぼ無作為に作成し、生物学的配列からポリAテールを"トリム"するために使用されるPythonツール cutadaptのPerlとPerl/C代替案を提案する。
edlibの場合、メタクラスプログラミングのパワーを活用して、多コアエンジン(MCE)モジュールとOpenMP(C/C++/Fortran Application Programming Interface for shared memory multithreaded Processing)によるプロセスベースの並列処理、そして粒度の細かい並列処理を実現します。
これらのユースケースは、Bio::SeqAlignmentフレームワークのコンセプト実証を提供する。このフレームワークは、複雑なメモリにおける異種コンポーネントを整理し、新しいビオンフォマティクスツールを構築するためのコマンドラインベースのワークフローで、ロングリードシークエンシング、例えばナノポール、シークエンシングプラットフォームからのデータを分析することができる。
関連論文リスト
- MALPOLON: A Framework for Deep Species Distribution Modeling [3.1457219084519004]
MALPOLONは深部種分布モデル(deep-SDM)の訓練と推測を容易にすることを目的としている
Pythonで書かれ、PyTorchライブラリ上に構築されている。
このフレームワークはGitHubとPyPiでオープンソース化されている。
論文 参考訳(メタデータ) (2024-09-26T17:45:10Z) - MPIrigen: MPI Code Generation through Domain-Specific Language Models [3.5352856644774806]
本研究ではまず,MPIに基づく並列プログラム生成における最先端言語モデルの性能について検討する。
HPCorpusMPI上でMonoCoderを微調整することでMPIベースのプログラム生成のダウンストリームタスクを導入する。
この調整されたソリューションの成功は、並列計算コード生成のための最適化言語モデルにおいて、ドメイン固有の微調整の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-14T12:24:21Z) - LILO: Learning Interpretable Libraries by Compressing and Documenting Code [71.55208585024198]
LILOは、反復的に合成、圧縮、文書化を行う、ニューロシンボリックなフレームワークである。
LILOは、LLM誘導プログラム合成と、Stitchから自動化された最近のアルゴリズムの進歩を組み合わせたものである。
LILOのシンセサイザーが学習した抽象化を解釈し、デプロイするのを手助けすることで、AutoDocがパフォーマンスを向上させることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T17:55:02Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。
QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。
並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文 参考訳(メタデータ) (2022-10-07T16:35:16Z) - PyRelationAL: a python library for active learning research and development [1.0061110876649197]
アクティブラーニング(英: Active Learning, AL)は、反復的かつ経済的にデータを取得する手法の開発に焦点を当てたMLのサブフィールドである。
本稿では,AL研究のためのオープンソースライブラリであるPyRelationALを紹介する。
プールベースのアクティブラーニング戦略を構成するための2段階の設計方法論をベースとしたモジュラーツールキットについて述べる。
論文 参考訳(メタデータ) (2022-05-23T08:21:21Z) - pymdp: A Python library for active inference in discrete state spaces [52.85819390191516]
pymdpはPythonでアクティブな推論をシミュレートするオープンソースパッケージである。
我々は,POMDPによるアクティブな推論をシミュレートする,最初のオープンソースパッケージを提供する。
論文 参考訳(メタデータ) (2022-01-11T12:18:44Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - Pythonic Black-box Electronic Structure Tool (PyBEST). An open-source
Python platform for electronic structure calculations at the interface
between chemistry and physics [52.77024349608834]
Pythonic Black-box Electronic Structure Tool (PyBEST) はトルーンのニコラス・コペルニクス大学で開発された。
PyBESTは主にPython3プログラミング言語で書かれており、追加の部分はC++で書かれている。
PyBESTの大規模電子構造計算能力は、モデルビタミンB12化合物に対して実証された。
論文 参考訳(メタデータ) (2020-10-12T07:10:23Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。