論文の概要: Compendium Manager: a tool for coordination of workflow management instances for bulk data processing in Python
- arxiv url: http://arxiv.org/abs/2505.11385v1
- Date: Fri, 16 May 2025 15:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.481462
- Title: Compendium Manager: a tool for coordination of workflow management instances for bulk data processing in Python
- Title(参考訳): Compendium Manager: Pythonのバルクデータ処理のためのワークフロー管理インスタンスの調整ツール
- Authors: Richard J. Abdill, Ran Blekhman,
- Abstract要約: Compendium ManagerはPythonで書かれたコマンドラインツールで、バイオインフォマティクスパイプラインのプロビジョニング、起動、評価を自動化する。
プロジェクトのリストを通じて進捗を計測し、結果を共有データベースにロードし、後の評価と評価のための詳細な処理メトリクスを記録する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compendium Manager is a command-line tool written in Python to automate the provisioning, launch, and evaluation of bioinformatics pipelines. Although workflow management tools such as Snakemake and Nextflow enable users to automate the processing of samples within a single sequencing project, integrating many datasets in bulk requires launching and monitoring hundreds or thousands of pipelines. We present the Compendium Manager, a lightweight command-line tool to enable launching and monitoring analysis pipelines at scale. The tool can gauge progress through a list of projects, load results into a shared database, and record detailed processing metrics for later evaluation and reproducibility.
- Abstract(参考訳): Compendium ManagerはPythonで書かれたコマンドラインツールで、バイオインフォマティクスパイプラインのプロビジョニング、起動、評価を自動化する。
SnakemakeやNextflowといったワークフロー管理ツールは、単一のシークエンシングプロジェクト内でサンプルの処理を自動化することができるが、多くのデータセットを大量に統合するには、数百から数千のパイプラインの起動と監視が必要である。
Compendium Managerは、分析パイプラインを大規模に起動および監視するための軽量なコマンドラインツールである。
このツールは、プロジェクトのリストを通じて進捗を計測し、結果を共有データベースにロードし、後の評価と再現性のための詳細な処理メトリクスを記録する。
関連論文リスト
- Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - A Survey of Pipeline Tools for Data Engineering [1.4856472820492366]
さまざまなパイプラインツールがデータエンジニアリングで使用することができる。
この調査では、パイプラインツールの設計とデータエンジニアリングの意図に基づいて、幅広いカテゴリと例を調査した。
ケーススタディでは、データエンジニアリングにパイプラインツールを使用することを示す。
論文 参考訳(メタデータ) (2024-06-12T15:41:06Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world
APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。
データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。
ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文 参考訳(メタデータ) (2023-07-31T15:56:53Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Omnidata: A Scalable Pipeline for Making Multi-Task Mid-Level Vision
Datasets from 3D Scans [103.92680099373567]
本稿では,実世界の包括的3Dスキャンからマルチタスク視覚データセットをパラメトリックサンプリングし,レンダリングするパイプラインを提案する。
サンプリングパラメータを変更することで、生成されたデータセットを“ステア”して、特定の情報を強調することが可能になる。
生成されたスタータデータセットでトレーニングされた共通アーキテクチャは、複数の共通ビジョンタスクとベンチマークで最先端のパフォーマンスに達した。
論文 参考訳(メタデータ) (2021-10-11T04:21:46Z) - AutoPipeline: Synthesize Data Pipelines By-Target Using Reinforcement
Learning and Search [19.53147565613595]
本稿では,文字列変換とテーブル操作演算を併用した複雑なデータパイプラインの自動化を提案する。
そこで本稿では,ユーザが希望するパイプラインを容易に指定可能な,新たな"ターゲット別"パラダイムを提案する。
我々は、強化学習と探索を用いてパイプラインを合成するオートパイプシステムを開発した。
論文 参考訳(メタデータ) (2021-06-25T19:44:01Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。