論文の概要: Towards LLM-Powered Task-Aware Retrieval of Scientific Workflows for Galaxy
- arxiv url: http://arxiv.org/abs/2511.01757v1
- Date: Mon, 03 Nov 2025 17:12:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.343885
- Title: Towards LLM-Powered Task-Aware Retrieval of Scientific Workflows for Galaxy
- Title(参考訳): LLMを利用したGalaxy用科学ワークフローの検索に向けて
- Authors: Shamse Tasnim Cynthia, Banani Roy,
- Abstract要約: 本稿では,高密度ベクトル探索と大規模言語モデル(LLM)を併用したタスク認識2段階検索フレームワークを提案する。
提案システムはまず,最先端の埋め込みモデルを用いて候補を検索し,次に命令調整型生成LDMを用いて再帰する。
我々は、標準赤外線測定値を用いて、語彙、密度、階調モデルの総合的な比較を行い、銀河生態系における検索性能の最初の体系的評価を提示する。
- 参考スコア(独自算出の注目度): 5.3326639738035055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific Workflow Management Systems (SWfMSs) such as Galaxy have become essential infrastructure in bioinformatics, supporting the design, execution, and sharing of complex multi-step analyses. Despite hosting hundreds of reusable workflows across domains, Galaxy's current keyword-based retrieval system offers limited support for semantic query interpretation and often fails to surface relevant workflows when exact term matches are absent. To address this gap, we propose a task-aware, two-stage retrieval framework that integrates dense vector search with large language model (LLM)-based reranking. Our system first retrieves candidate workflows using state-of-the-art embedding models and then reranks them using instruction-tuned generative LLMs (GPT-4o, Mistral-7B) based on semantic task alignment. To support robust evaluation, we construct a benchmark dataset of Galaxy workflows annotated with semantic topics via BERTopic and synthesize realistic task-oriented queries using LLMs. We conduct a comprehensive comparison of lexical, dense, and reranking models using standard IR metrics, presenting the first systematic evaluation of retrieval performance in the Galaxy ecosystem. Results show that our approach significantly improves top-k accuracy and relevance, particularly for long or under-specified queries. We further integrate our system as a prototype tool within Galaxy, providing a proof-of-concept for LLM-enhanced workflow search. This work advances the usability and accessibility of scientific workflows, especially for novice users and interdisciplinary researchers.
- Abstract(参考訳): Galaxyのような科学ワークフロー管理システム(SWfMS)は、バイオインフォマティクスにおいて重要な基盤となり、複雑な多段階解析の設計、実行、共有をサポートしてきた。
ドメイン間で数百の再利用可能なワークフローをホストしているにもかかわらず、Galaxyの現在のキーワードベースの検索システムは、セマンティッククエリの解釈を限定的にサポートしており、正確な項一致が欠如している場合、関連するワークフローを表示できないことが多い。
このギャップに対処するために,大規模言語モデル (LLM) に基づく高次ベクトル探索と高次ベクトル探索を統合したタスク認識2段階検索フレームワークを提案する。
提案システムはまず,最先端の埋め込みモデルを用いて候補ワークフローを検索し,意味的タスクアライメントに基づく命令調整型生成LLM(GPT-4o, Mistral-7B)を用いて再帰する。
頑健な評価を支援するために,BERTopicを用いて意味トピックを付加したGalaxyワークフローのベンチマークデータセットを構築し,LLMを用いて現実的なタスク指向クエリを合成する。
我々は、標準赤外線測定値を用いて、語彙、密度、階調モデルの総合的な比較を行い、銀河生態系における検索性能の最初の体系的評価を提示する。
その結果,提案手法は,特に長いクエリや未特定クエリにおいて,トップkの精度と関連性を大幅に向上させることがわかった。
さらに,本システムをGalaxyのプロトタイプツールとして統合し,LLM拡張ワークフロー検索のための概念実証を行う。
この研究は、特に初級者や学際研究者にとって、科学的ワークフローのユーザビリティとアクセシビリティを向上させる。
関連論文リスト
- A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - LLM Agents for Interactive Workflow Provenance: Reference Architecture and Evaluation Methodology [3.470217255779291]
本稿では,対話型大規模言語モデル(LLM)エージェントをランタイムデータ解析に活用する評価手法,参照アーキテクチャ,オープンソース実装を提案する。
提案手法では,自然言語を構造化された前処理クエリに変換する軽量なメタデータ駆動型設計を用いる。
LLaMA、GPT、Gemini、Claudeにまたがる評価では、多様なクエリクラスと現実世界の化学ワークフローを網羅し、モジュール設計、即時チューニング、Retrieval-Augmented Generation (RAG)が正確で洞察に富んだエージェント応答を可能にすることを示している。
論文 参考訳(メタデータ) (2025-09-17T13:51:29Z) - From Prompt to Pipeline: Large Language Models for Scientific Workflow Development in Bioinformatics [2.2160604288512324]
本研究では,最先端の大規模言語モデルが正確なバイオインフォマティクスを生成できるかどうかを考察する。
生成されたデータは,Galaxy Training Network と nf-core のコミュニティによるベースラインに対して評価される。
その結果、Gemini 2.5 FlashはGalaxyで最も正確でユーザフレンドリで、DeepSeek-V3はNextflowパイプライン生成に優れていた。
論文 参考訳(メタデータ) (2025-07-27T04:08:11Z) - To Err Is Human; To Annotate, SILICON? Reducing Measurement Error in LLM Annotation [11.470318058523466]
大規模言語モデル(LLM)は、人間のアノテーションに代わる費用対効果の高いスケーラブルな代替を約束する。
LLMアノテーションから測定誤差を体系的に低減するSILICON手法を開発した。
この証拠は,各エラー源の削減が必要であり,SILICONは管理研究において厳密なアノテーションをサポートしていることを示唆している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。