論文の概要: Snakemaker: Seamlessly transforming ad-hoc analyses into sustainable Snakemake workflows with generative AI
- arxiv url: http://arxiv.org/abs/2505.02841v1
- Date: Sat, 26 Apr 2025 06:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-11 11:26:45.187381
- Title: Snakemaker: Seamlessly transforming ad-hoc analyses into sustainable Snakemake workflows with generative AI
- Title(参考訳): Snakemaker: アドホック分析を持続可能なSnakemakeワークフローにシームレスに変換するジェネレーティブAI
- Authors: Marco Masera, Alessandro Leone, Johannes Köster, Ivan Molineris,
- Abstract要約: 本稿では、生成AIを活用して持続可能なデータ分析パイプラインを実現するツールであるSnakemakerを紹介する。
Snakemakerは、研究者が端末で行った作業を非侵襲的に追跡し、実行パターンを分析し、既存のパイプラインに統合可能なSnakemakeを生成する。
統合チャットアシスタントは、自然言語によるきめ細かい制御を提供する。
- 参考スコア(独自算出の注目度): 42.10024487478127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reproducibility and sustainability present significant challenges in bioinformatics software development, where rapidly evolving tools and complex workflows often result in short-lived or difficult-to-adapt pipelines. This paper introduces Snakemaker, a tool that leverages generative AI to facilitate researchers build sustainable data analysis pipelines by converting unstructured code into well-defined Snakemake workflows. Snakemaker non-invasively tracks the work performed in the terminal by the researcher, analyzes execution patterns, and generates Snakemake workflows that can be integrated into existing pipelines. Snakemaker also supports the transformation of monolithic Ipython Notebooks into modular Snakemake pipelines, resolving the global state of the notebook into discrete, file-based interactions between rules. An integrated chat assistant provides users with fine-grained control through natural language instructions. Snakemaker generates high-quality Snakemake workflows by adhering to the best practices, including Conda environment tracking, generic rule generation and loop unrolling. By lowering the barrier between prototype and production-quality code, Snakemaker addresses a critical gap in computational reproducibility for bioinformatics research.
- Abstract(参考訳): 再現性と持続性は、急速に進化するツールや複雑なワークフローが短命ないし適応の難しいパイプラインをもたらす、バイオインフォマティクスソフトウェア開発において重要な課題である。
本稿では、生成AIを活用するツールであるSnakemakerを紹介し、構造化されていないコードを適切に定義されたSnakemakeワークフローに変換することで、研究者が持続可能なデータ分析パイプラインを構築するのを支援する。
Snakemakerは、研究者が端末で実行した作業を非侵襲的に追跡し、実行パターンを分析し、既存のパイプラインに統合可能なSnakemakeワークフローを生成する。
Snakemakerはまた、モノリシックなIpython NotebooksをモジュラーなSnakemakeパイプラインに変換することをサポートし、ノートブックのグローバルな状態をルール間の個別のファイルベースのインタラクションに解決する。
統合チャットアシスタントは、自然言語によるきめ細かい制御を提供する。
Snakemakerは、Conda環境トラッキング、ジェネリックルール生成、ループアンロールといったベストプラクティスを定着させることで、高品質なSnakemakeワークフローを生成する。
プロトタイプと生産品質のコードの間の障壁を低くすることで、Snakemakerはバイオインフォマティクス研究における計算再現性の重大なギャップに対処する。
関連論文リスト
- RAG Without the Lag: Interactive Debugging for Retrieval-Augmented Generation Pipelines [1.5741300187949614]
Retrieval-augmented Generation (RAG)パイプラインは、外部のドメイン固有の知識にアクセス可能なAIアシスタントを構築するためのデファクトなアプローチになっている。
RAGGYは,構成可能なRAGプリミティブのPythonライブラリと,リアルタイムデバッグのためのインタラクティブインターフェースを組み合わせたツールである。
論文 参考訳(メタデータ) (2025-04-18T09:38:49Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Large Language Models as Realistic Microservice Trace Generators [54.85489678342595]
ワークロードトレースは、複雑なコンピュータシステムの振る舞いを理解し、処理とメモリリソースを管理するために不可欠である。
本稿では,大規模言語モデルを用いて合成ワークロードトレースを生成する手法を提案する。
我々のモデルは、キートレースの特徴を予測したり、欠落したデータを埋め込んだりといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - ComfyBench: Benchmarking LLM-based Agents in ComfyUI for Autonomously Designing Collaborative AI Systems [80.69865295743149]
この研究は、LLMベースのエージェントを使用して、協調AIシステムを自律的に設計する試みである。
ComfyBenchをベースとしたComfyAgentは,エージェントが自律的に協調的なAIシステムを生成して設計できるようにするフレームワークである。
ComfyAgentは、o1-previewに匹敵する解像度を達成し、ComfyBenchの他のエージェントをはるかに上回っているが、ComfyAgentはクリエイティブタスクの15%しか解決していない。
論文 参考訳(メタデータ) (2024-09-02T17:44:10Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - InstructPipe: Generating Visual Blocks Pipelines with Human Instructions and LLMs [31.33991352821111]
InstructPipeは、テキスト命令で機械学習(ML)パイプラインをプロトタイピングするAIアシスタントである。
2つの大きな言語モデル(LLM)モジュールとコードインタプリタをフレームワークの一部としてコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-15T10:34:53Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。