論文の概要: From Prompt to Pipeline: Large Language Models for Scientific Workflow Development in Bioinformatics
- arxiv url: http://arxiv.org/abs/2507.20122v2
- Date: Thu, 14 Aug 2025 22:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.537556
- Title: From Prompt to Pipeline: Large Language Models for Scientific Workflow Development in Bioinformatics
- Title(参考訳): PromptからPipelineへ:バイオインフォマティクスにおける科学ワークフロー開発のための大規模言語モデル
- Authors: Khairul Alam, Banani Roy,
- Abstract要約: 本研究では,最先端の大規模言語モデルが正確なバイオインフォマティクスを生成できるかどうかを考察する。
生成されたデータは,Galaxy Training Network と nf-core のコミュニティによるベースラインに対して評価される。
その結果、Gemini 2.5 FlashはGalaxyで最も正確でユーザフレンドリで、DeepSeek-V3はNextflowパイプライン生成に優れていた。
- 参考スコア(独自算出の注目度): 2.2160604288512324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific Workflow Systems such as Galaxy and Nextflow are essential for scalable, reproducible, and automated bioinformatics analyses. However, developing and understanding scientific workflows remains challenging for many domain scientists due to the complexity of tool/module selection, infrastructure requirements, and limited programming expertise. This study explores whether state-of-the-art Large Language Models such as GPT-4o, Gemini 2.5 Flash, and DeepSeek-V3 can assist in generating accurate, complete, and usable bioinformatics workflows. We evaluate a set of representative workflows covering tasks such as RNA-seq, SNP analysis, and DNA methylation across both Galaxy (graphical) and Nextflow (script-based) platforms. To simulate realistic usage, we adopt a tiered prompting strategy: each workflow is first generated using an instruction-only prompt; if the output is incomplete or incorrect, we escalate to a role-based prompt, and finally to chain-of-thought prompting if needed. The generated workflows are evaluated against community-curated baselines from the Galaxy Training Network and nf-core, using criteria including correctness, completeness, tool appropriateness, and executability. Results show that LLMs exhibit strong potential in workflow development. Gemini 2.5 Flash produced the most accurate and user-friendly workflows in Galaxy, while DeepSeek-V3 excelled in Nextflow pipeline generation. GPT-4o performed nicely with structured prompts. Prompting strategy significantly influenced output quality, with role-based and chain-of-thought prompts enhancing correctness and completeness. Overall, LLMs can reduce the cognitive and technical barriers to workflow development, making SWSs more accessible to novice and expert users. This work highlights the practical utility of LLMs and provides actionable insights for integrating them into real-world bioinformatics workflow design.
- Abstract(参考訳): GalaxyやNextflowのような科学ワークフローシステムは、スケーラブルで再現性があり、自動化されたバイオインフォマティクス分析に不可欠である。
しかし、多くのドメイン科学者にとって、ツール/モジュールの選択、インフラ要件、限られたプログラミング専門知識の複雑さのため、科学的ワークフローの開発と理解は依然として困難である。
本稿では,GPT-4oやGemini 2.5 Flash,DeepSeek-V3といった最先端の大規模言語モデルが,正確なバイオインフォマティクスワークフローの生成に有効かどうかを検討する。
我々は, RNA-seq, SNP解析, DNAメチル化などのタスクを, Galaxy(グラフィック)とNextflow(スクリプトベース)の両プラットフォームでカバーする一連の代表ワークフローを評価する。
現実的な使用をシミュレートするために、まずは命令のみのプロンプトを使用して各ワークフローが生成される。アウトプットが不完全あるいは不正であれば、ロールベースのプロンプトにエスカレートし、必要に応じてチェーン・オブ・シントプロンプトにエスカレートする。
生成されたワークフローは、Galaxy Training Networkとnf-coreのコミュニティが作成したベースラインに対して、正確性、完全性、ツールの適切性、実行可能性などの基準を用いて評価される。
その結果,LLMはワークフロー開発において大きな可能性を秘めていることがわかった。
Gemini 2.5 FlashはGalaxyで最も正確でユーザフレンドリーなワークフローを生み出し、DeepSeek-V3はNextflowパイプライン生成に優れていた。
GPT-4oは構造化プロンプトで良好に動作した。
プロンプティング戦略は出力品質に大きな影響を与え、ロールベースとチェーンオブ思想は正確性と完全性を高める。
全体として、LLMはワークフロー開発における認知的および技術的な障壁を減らし、SWSを初心者や専門家のユーザにとってよりアクセスしやすいものにします。
この研究は、LLMの実用性を強調し、現実のバイオインフォマティクスのワークフロー設計に統合するための実用的な洞察を提供する。
関連論文リスト
- Making a Pipeline Production-Ready: Challenges and Lessons Learned in the Healthcare Domain [2.0905671861214894]
SPIRAはML-Enabled System(MLES)を作成し、音声分析によって呼吸不全を診断するプロジェクトである。
本稿では,MLESのアーキテクチャの概要を述べるとともに,その連続訓練サブシステムの3つのバージョンを比較した。
論文は、学習した課題と教訓を共有し、パイプラインを生産しようとする研究者や実践者に洞察を提供する。
論文 参考訳(メタデータ) (2025-06-07T23:00:13Z) - ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation [71.31634636156384]
タスク記述に基づいてComfyUIを生成するように設計された,最初の自己最適化型マルチエージェントシステムであるComfyGPTを紹介する。
ComfyGPTは、ReformatAgent、FlowAgent、RefineAgent、ExecuteAgentの4つの特殊エージェントで構成されている。
FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットであり、FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-03-22T06:48:50Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Large Language Models to the Rescue: Reducing the Complexity in
Scientific Workflow Development Using ChatGPT [11.410608233274942]
科学システムは、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。
しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、実装は難しい。
本研究では,大規模言語モデル,特にChatGPTの効率性を検討した。
論文 参考訳(メタデータ) (2023-11-03T10:28:53Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。