論文の概要: From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation
- arxiv url: http://arxiv.org/abs/2604.21910v1
- Date: Thu, 23 Apr 2026 17:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.810795
- Title: From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation
- Title(参考訳): 研究から科学ワークフローへ - エージェントAIを活用した科学自動化
- Authors: Bartosz Balis, Michal Orzechowski, Piotr Kica, Michal Dygas, Michal Kuszewski,
- Abstract要約: 我々は,Hyperflow WMS上で動作する1000 Genomes集団遺伝ワークフロー上でのアーキテクチャの実装と評価を行った。
150クエリに関するアブレーション調査では、Skillsはフルマッチインテントの精度を44%から83%に引き上げ、スキル駆動の遅延ワークフロー生成はデータ転送を92%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific workflow systems automate execution -- scheduling, fault tolerance, resource management -- but not the semantic translation that precedes it. Scientists still manually convert research questions into workflow specifications, a task requiring both domain knowledge and infrastructure expertise. We propose an agentic architecture that closes this gap through three layers: an LLM interprets natural language into structured intents (semantic layer); validated generators produce reproducible workflow DAGs (deterministic layer); and domain experts author ``Skills'': markdown documents encoding vocabulary mappings, parameter constraints, and optimization strategies (knowledge layer). This decomposition confines LLM non-determinism to intent extraction: identical intents always yield identical workflows. We implement and evaluate the architecture on the 1000 Genomes population genetics workflow and Hyperflow WMS running on Kubernetes. In an ablation study on 150 queries, Skills raise full-match intent accuracy from 44% to 83%; skill-driven deferred workflow generation reduces data transfer by 92\%; and the end-to-end pipeline completes queries on Kubernetes with LLM overhead below 15 seconds and cost under $0.001 per query.
- Abstract(参考訳): 科学的ワークフローシステムは、スケジューリング、フォールトトレランス、リソース管理といった実行を自動化するが、それより前のセマンティック翻訳ではない。
研究者は研究の質問を、ドメイン知識とインフラストラクチャの専門知識の両方を必要とするタスクであるワークフロー仕様に手作業で変換します。
LLMは自然言語を構造化意図(意味層)に解釈し、検証された生成元は再現可能なワークフローDAG(決定層)を生成し、ドメインの専門家は '`スキル': 語彙マッピング、パラメータ制約、最適化戦略(知識層)をコードするマークダウン文書を作成する。
この分解はLLM非決定論を意図抽出に限定する:同一の意図は常に同じワークフローを生成する。
私たちは、1000 Genomes集団遺伝ワークフローとKubernetes上で動作するHyperflow WMSでアーキテクチャを実装し、評価します。
150クエリに関するアブレーション調査では、Skillsはフルマッチインテントの精度を44%から83%に引き上げ、スキル駆動の遅延ワークフロー生成はデータ転送を92\%削減し、エンドツーエンドパイプラインはLLMオーバーヘッドを15秒未満で、クエリ毎に0.001ドル以下でKubernetes上のクエリを完了する。
関連論文リスト
- MatClaw: An Autonomous Code-First LLM Agent for End-to-End Materials Exploration [0.0]
我々は、Pythonを直接書き、実行するためのコードファーストエージェントであるMatchClawを提示する。
MatClawはコード生成を確実に扱うが、暗黙のドメイン知識に苦慮している。
その結果、ガイド付きと完全に自律的な計算材料研究のギャップはこれまで以上に狭くなっていることが明らかとなった。
論文 参考訳(メタデータ) (2026-04-03T03:32:15Z) - Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - CEDAR: Context Engineering for Agentic Data Science [3.1662160826016756]
CEDARはエージェント設定でデータサイエンスタスクを自動化するアプリケーションである。
効果的なコンテキストエンジニアリングによって、これらを緩和できることが示される。
フォールトトレランスとコンテキスト管理は、反復的なコード生成とスマートヒストリレンダリングを通じて導入される。
論文 参考訳(メタデータ) (2026-01-10T16:05:04Z) - Eliminating Agentic Workflow for Introduction Generation with Parametric Stage Tokens [3.6588919376939733]
我々は外部エージェントを排除して研究紹介を書くことを提案する。
代わりに、我々はそれらの論理構造を大きな言語モデルにパラメータ化します。
これにより、単一の推論で完全な導入が生成される。
論文 参考訳(メタデータ) (2025-12-28T12:51:36Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。