論文の概要: Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code
- arxiv url: http://arxiv.org/abs/2603.08195v1
- Date: Mon, 09 Mar 2026 10:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.790251
- Title: Supporting Workflow Reproducibility by Linking Bioinformatics Tools across Papers and Executable Code
- Title(参考訳): バイオインフォマティクスツールを紙と実行可能なコードにリンクすることでワークフローの再現性を支援する
- Authors: Clémence Sebe, Olivier Ferret, Aurélie Névéol, Mahdi Esmailoghli, Ulf Leser, Sarah Cohen-Boulakia,
- Abstract要約: 我々は3つのコンポーネントを統合する自動アプローチであるCoPaLinkを紹介した。 科学テキストでツール参照を識別するための名前付きエンティティ認識(NER)、ワークフローコードでツール参照を識別するためのNER、バイオインフォマティクスの知識ベースに基づくエンティティリンクである。
バイオコンダとバイオウェブの知識ベースを用いたNextflowの評価において,高いF1尺度(84~89)とジョイント精度(66)を達成できる3つのステップすべてに対するアプローチを提案する。
- 参考スコア(独自算出の注目度): 5.57580328336509
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Motivation: The rapid growth of biological data has intensified the need for transparent, reproducible, and well-documented computational workflows. The ability to clearly connect the steps of a workflow in the code with their description in a paper would improve workflow understanding, support reproducibility, and facilitate reuse. This task requires the linking of Bioinformatics tools in workflow code with their mentions in a published workflow description. Results: We present CoPaLink, an automated approach that integrates three components: Named Entity Recognition (NER) for identifying tool mentions in scientific text, NER for tool mentions in workflow code, and entity linking grounded on Bioinformatics knowledge bases. We propose approaches for all three steps achieving a high individual F1-measure (84 - 89) and a joint accuracy of 66 when evaluated on Nextflow workflows using Bioconda and Bioweb Knowledge bases. CoPaLink leverages corpora of scientific articles and workflow executable code with curated tool annotations to bridge the gap between narrative descriptions and workflow implementations. Availability: The code is available at https://gitlab.liris.cnrs.fr/sharefair/copalink-experiments and https://gitlab.liris.cnrs.fr/sharefair/copalink. The corpora are also available at https://doi.org/10.5281/zenodo.18526700, https://doi.org/10.5281/zenodo.18526760 and https://doi.org/10.5281/zenodo.18543814.
- Abstract(参考訳): モチベーション(Motivation): 生物学的データの急速な成長により、透過的で再現性があり、文書化された計算ワークフローの必要性が高まっている。
コード内のワークフローのステップを論文で記述したものと明確に結びつける能力は、ワークフローの理解を改善し、再現性をサポートし、再利用を容易にする。
このタスクでは、ワークフローコードにバイオインフォマティクスツールをリンクする必要がある。
結果: CoPaLinkは3つのコンポーネントを統合した自動化されたアプローチである。科学テキストでツール参照を識別するための名前付きエンティティ認識(NER)、ワークフローコードでツール参照を識別するためのNER、バイオインフォマティクスの知識ベースに基づくエンティティリンクである。
バイオコンダとバイオウェブの知識ベースを用いたNextflowワークフローの評価において,高い個別F1尺度(84~89)と共同精度(66)を達成できる3つのステップすべてに対するアプローチを提案する。
CoPaLinkは、解説記述とワークフロー実装のギャップを埋めるために、キュレートされたツールアノテーションを備えた、科学記事とワークフロー実行コードのコーパスを活用する。
可用性: コードはhttps://gitlab.liris.cnrs.fr/sharefair/copalink-experimentsとhttps://gitlab.liris.cnrs.fr/sharefair/copalinkで利用できる。
コーポラはhttps://doi.org/10.5281/zenodo.18526700, https://doi.org/10.5281/zenodo.18526760, https://doi.org/10.5281/zenodo.18543814で入手できる。
関連論文リスト
- Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [70.04746094652653]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。
PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。
次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文 参考訳(メタデータ) (2025-04-24T01:57:01Z) - ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation [96.44354750396019]
ComfyGPTはタスク記述に基づいてComfyUIを生成するように設計された自動最適化マルチエージェントシステムである。
FlowDatasetは、13,571のワークフロー記述ペアを含む大規模なデータセットである。
FlowBenchはワークフロー生成システムを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-03-22T06:48:50Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - WorkflowHub: a registry for computational workflows [0.34864924310198164]
分析記録と処理手順の記述の両方が再利用され、再利用され、利用可能であるべきである。
ワークフロー共有は、不要な再発明を減らし、再利用を促進し、非専門家のベストプラクティス分析へのアクセスを増やし、生産性を高める機会を提供する。
Hubは、コミュニティリポジトリにリンクするすべての計算レジストリに統一レジストリを提供する。
このレジストリは世界中に広がり、何百もの研究組織が関与し、700以上の登録がある。
論文 参考訳(メタデータ) (2024-10-09T14:36:27Z) - On the effectiveness of Large Language Models for GitHub Workflows [9.82254417875841]
大規模言語モデル(LLM)は、様々なソフトウェア開発タスクにおいてその効果を実証している。
異なるレベルのプロンプトを持つ5つのワークフロー関連タスクにおけるLLMの有効性を理解するための、最初の総合的研究を行う。
現状のLLMと細調整した3種類のLLMの評価結果から,LLMの現在の有効性と欠点について,様々な興味深い知見が得られた。
論文 参考訳(メタデータ) (2024-03-19T05:14:12Z) - Automated DevOps Pipeline Generation for Code Repositories using Large
Language Models [5.011328607647701]
調査では、GitHubの生成におけるGPT 3.5とGPT 4の習熟度を精査するとともに、最も効率的なパイプライン構築におけるさまざまなプロンプト要素の影響を評価している。
GPTは4。
Probot上に構築されたGitHubアプリを導入し、GitHubエコシステム内でワークフロー生成を自動化する。
論文 参考訳(メタデータ) (2023-12-20T17:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。