論文の概要: A Cloud-based Multi-Agentic Workflow for Science
- arxiv url: http://arxiv.org/abs/2601.12607v1
- Date: Sun, 18 Jan 2026 22:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.698561
- Title: A Cloud-based Multi-Agentic Workflow for Science
- Title(参考訳): クラウドによる科学のためのマルチエージェントワークフロー
- Authors: Anurag Acharya, Timothy Vega, Rizwan A. Ashraf, Anshu Sharma, Derek Parker, Robert Rallo,
- Abstract要約: 大型言語モデル(LLM)は、様々な科学領域にまたがって広く普及している。
シミュレーションの実行や複雑な決定といった複雑なタスクを実行する能力の欠如は、彼らのユーティリティを制限します。
我々は、完全にクラウド上で実行されている間、科学的アシスタントとして機能するエージェントフレームワークに対して、ドメインに依存しない、モデルに依存しないワークフローを提示します。
- 参考スコア(独自算出の注目度): 0.12314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become ubiquitous across various scientific domains, their lack of ability to perform complex tasks like running simulations or to make complex decisions limits their utility. LLM-based agents bridge this gap due to their ability to call external resources and tools and thus are now rapidly gaining popularity. However, coming up with a workflow that can balance the models, cloud providers, and external resources is very challenging, making implementing an agentic system more of a hindrance than a help. In this work, we present a domain-agnostic, model-independent workflow for an agentic framework that can act as a scientific assistant while being run entirely on cloud. Built with a supervisor agent marshaling an array of agents with individual capabilities, our framework brings together straightforward tasks like literature review and data analysis with more complex ones like simulation runs. We describe the framework here in full, including a proof-of-concept system we built to accelerate the study of Catalysts, which is highly important in the field of Chemistry and Material Science. We report the cost to operate and use this framework, including the breakdown of the cost by services use. We also evaluate our system on a custom-curated synthetic benchmark and a popular Chemistry benchmark, and also perform expert validation of the system. The results show that our system is able to route the task to the correct agent 90% of the time and successfully complete the assigned task 97.5% of the time for the synthetic tasks and 91% of the time for real-world tasks, while still achieving better or comparable accuracy to most frontier models, showing that this is a viable framework for other scientific domains to replicate.
- Abstract(参考訳): 大規模言語モデル(LLM)が様々な科学領域にまたがって普及するにつれて、シミュレーションの実行や複雑な決定といった複雑なタスクを実行する能力の欠如により、実用性は制限される。
LLMベースのエージェントは、外部リソースやツールを呼び出す能力のために、このギャップを埋める。
しかし、モデルやクラウドプロバイダ、外部リソースのバランスをとることができるワークフローを思いつくのは、非常に難しいため、エージェントシステムの実装は、助け以上の障害になります。
本研究では,クラウド上で完全に動作しながら,科学的アシスタントとして機能するエージェントフレームワークのためのドメインに依存しない,モデルに依存しないワークフローを提案する。
私たちのフレームワークは、個々の能力を持つエージェントの配列をマーシャリングするスーパーバイザーで構築されています。
触媒の研究を加速するために構築した概念実証システムを含む、このフレームワークは、化学と物質科学の分野で非常に重要である。
このフレームワークの運用と使用に要するコストを報告します。
また,このシステムを,カスタムキュレートされた合成ベンチマークと一般的な化学ベンチマークで評価し,システムの専門家による検証を行った。
その結果,本システムでは,タスクの90%を正しいエージェントにルーティングし,与えられたタスクの97.5%の時間と実世界のタスクの91%を完了させることができた。
関連論文リスト
- Bohrium + SciMaster: Building the Infrastructure and Ecosystem for Agentic Science at Scale [82.20980951765891]
エージェントサイエンスのスケーリングにはインフラストラクチャ・アンド・エコシステムアプローチが必要である,と我々は主張する。
BohriumはAI4S資産のマネージドでトレース可能なハブとして機能し、多様な科学データ、ソフトウェア、計算、実験室のシステムをエージェント対応の能力に変換する。
SciMasterはこれらの機能を長い水平科学に編成し、科学エージェントを合成して実行することができる。
論文 参考訳(メタデータ) (2025-12-23T16:04:41Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization [69.36509281190662]
生産レベルのコンピュータビジョンツールを科学データセットに適応させることは、重要な"ラストマイル"ボトルネックである。
我々は、AIエージェントを使ってこの手動コーディングを自動化し、最適なエージェント設計のオープンな問題に焦点を当てる。
簡単なエージェントフレームワークが、人間-専門家のソリューションよりも優れた適応コードを生成することを実証する。
論文 参考訳(メタデータ) (2025-12-02T18:42:26Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - El Agente: An Autonomous Agent for Quantum Chemistry [3.6593051631801106]
El Agente Qは、自然言語のユーザプロンプトから量子化学を生成し、実行するマルチエージェントシステムである。
El Agente Qは6つの大学レベルのコース演習と2つのケーススタディでベンチマークされ、堅牢な問題解決性能を示している。
論文 参考訳(メタデータ) (2025-05-05T09:07:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。