論文の概要: PERC: a suite of software tools for the curation of cryoEM data with application to simulation, modelling and machine learning
- arxiv url: http://arxiv.org/abs/2503.13329v1
- Date: Mon, 17 Mar 2025 16:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:58:39.781026
- Title: PERC: a suite of software tools for the curation of cryoEM data with application to simulation, modelling and machine learning
- Title(参考訳): PERC:CryoEMデータのキュレーションのためのソフトウェアツールスイートとシミュレーション、モデリング、機械学習への応用
- Authors: Beatriz Costa-Gomes, Joel Greer, Nikolai Juraschko, James Parkhurst, Jola Mirecka, Marjan Famili, Camila Rangel-Smith, Oliver Strickson, Alan Lowe, Mark Basham, Tom Burnley,
- Abstract要約: 構造生物学では、現在実験とシミュレーションされたデータセットのオープンリポジトリが多数存在する。
ここで紹介するツールは、既存のCryoEMデータセットの照合や、新しい合成CryoEMデータセットの作成に有用である。
- 参考スコア(独自算出の注目度): 0.3818645814949463
- License:
- Abstract: Ease of access to data, tools and models expedites scientific research. In structural biology there are now numerous open repositories of experimental and simulated datasets. Being able to easily access and utilise these is crucial for allowing researchers to make optimal use of their research effort. The tools presented here are useful for collating existing public cryoEM datasets and/or creating new synthetic cryoEM datasets to aid the development of novel data processing and interpretation algorithms. In recent years, structural biology has seen the development of a multitude of machine-learning based algorithms for aiding numerous steps in the processing and reconstruction of experimental datasets and the use of these approaches has become widespread. Developing such techniques in structural biology requires access to large datasets which can be cumbersome to curate and unwieldy to make use of. In this paper we present a suite of Python software packages which we collectively refer to as PERC (profet, EMPIARreader and CAKED). These are designed to reduce the burden which data curation places upon structural biology research. The protein structure fetcher (profet) package allows users to conveniently download and cleave sequences or structures from the Protein Data Bank or Alphafold databases. EMPIARreader allows lazy loading of Electron Microscopy Public Image Archive datasets in a machine-learning compatible structure. The Class Aggregator for Key Electron-microscopy Data (CAKED) package is designed to seamlessly facilitate the training of machine learning models on electron microscopy data, including electron-cryo-microscopy-specific data augmentation and labelling. These packages may be utilised independently or as building blocks in workflows. All are available in open source repositories and designed to be easily extensible to facilitate more advanced workflows if required.
- Abstract(参考訳): データ、ツール、モデルへのアクセスは科学的研究を早める。
構造生物学では、現在実験とシミュレーションされたデータセットのオープンリポジトリが多数存在する。
研究者が研究努力を最大限に活用するためには、これらを容易にアクセスして活用できることが不可欠だ。
ここで提示されるツールは、既存のCryoEMデータセットの照合や、新しいデータ処理と解釈アルゴリズムの開発を支援するために、新しい合成CryoEMデータセットの作成に有用である。
近年、構造生物学は、実験データセットの処理と再構築における多くのステップを補助する機械学習ベースのアルゴリズムを多数開発し、これらのアプローチの利用が広まりつつある。
このような手法を構造生物学で開発するには、大きなデータセットにアクセスする必要がある。
本稿では, PERC (profet, EMPIARreader, CAKED) と呼ぶPythonソフトウェアパッケージ群について述べる。
これらは、構造生物学の研究におけるデータキュレーションの負担を軽減するために設計されている。
タンパク質構造フェッチ(profet)パッケージは、ユーザがProtein Data BankやAlphafoldデータベースから、簡単にシーケンスや構造をダウンロードして、クリーブすることができる。
EMPIARreaderは、機械学習互換構造でElectron Microscopy Public Image Archiveデータセットの遅延ロードを可能にする。
CAKED(Class Aggregator for Key Electron-microscopy Data)パッケージは、電子顕微鏡データにおける機械学習モデルのトレーニングをシームレスに行うように設計されている。
これらのパッケージは独立して利用したり、ワークフローのビルディングブロックとして利用することができる。
すべてはオープンソースリポジトリで利用可能であり、必要に応じてより高度なワークフローを容易にするために容易に拡張できるように設計されている。
関連論文リスト
- Multimodal Structure Preservation Learning [13.868320911807587]
データ表現を学習する新しい方法として,マルチモーダル構造保存学習(MSPL)を提案する。
合成時系列データ中の潜伏構造を解明し,全ゲノムシークエンシングおよび抗菌抵抗性データからクラスターを回収するためのMSPLの有効性を実証した。
論文 参考訳(メタデータ) (2024-10-29T20:21:40Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - SelfEEG: A Python library for Self-Supervised Learning in
Electroencephalography [0.0]
SelfEEGは、研究者が脳波(EEG)データに対して自己監視学習(SSL)実験を行うのを支援するために開発されたオープンソースのPythonライブラリである。
その主な目的は、ユーザフレンドリで高度にカスタマイズ可能な環境を提供することで、EEGデータ上で、自己教師付き学習タスクを効率的に設計し、実行できるようにすることである。
論文 参考訳(メタデータ) (2023-12-20T14:58:07Z) - Synthetic data enable experiments in atomistic machine learning [0.0]
既存のMLポテンシャルモデルから,原子単位のエネルギーをラベル付けした大規模データセットの使用を実演する。
このプロセスの安価さは、量子力学の土台真実に比べれば、数百万のデータポイントを生成できる。
合成データラベルの学習は、後続の小さなデータセットの微調整に有用な事前学習タスクであることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:17:24Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - CircuitNet: An Open-Source Dataset for Machine Learning Applications in
Electronic Design Automation (EDA) [9.788869757486289]
本稿では,VLSI CADにおける機械学習タスクのための最初のオープンソースデータセットCircuitNetについて述べる。
データセットは、6つのオープンソースRISC-V設計に基づいて、商用デザインツールの多目的実行から抽出された10K以上のサンプルで構成されている。
論文 参考訳(メタデータ) (2022-08-01T01:49:28Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Cardea: An Open Automated Machine Learning Framework for Electronic
Health Records [11.170152156043336]
Cardeaはオープンソースの自動機械学習フレームワークだ。
ユーザーは自分のデータを使って予測モデルを構築することができる。
我々はMIMIC-IIIおよびKaggleデータセット上の5つの予測タスクを通して、我々のフレームワークを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:58:13Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。