論文の概要: ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
- arxiv url: http://arxiv.org/abs/2505.19897v1
- Date: Mon, 26 May 2025 12:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.417306
- Title: ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows
- Title(参考訳): ScienceBoard: 現実的な科学ワークフローにおけるマルチモーダル自律エージェントの評価
- Authors: Qiushi Sun, Zhoumianze Liu, Chang Ma, Zichen Ding, Fangzhi Xu, Zhangyue Yin, Haiteng Zhao, Zhenyu Wu, Kanzhi Cheng, Zhaoyang Liu, Jianing Wang, Qintong Li, Xiangru Tang, Tianbao Xie, Xiachong Feng, Xiang Li, Ben Kao, Wenhai Wang, Biqing Qi, Lingpeng Kong, Zhiyong Wu,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
- 参考スコア(独自算出の注目度): 82.07367406991678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have extended their impact beyond Natural Language Processing, substantially fostering the development of interdisciplinary research. Recently, various LLM-based agents have been developed to assist scientific discovery progress across multiple aspects and domains. Among these, computer-using agents, capable of interacting with operating systems as humans do, are paving the way to automated scientific problem-solving and addressing routines in researchers' workflows. Recognizing the transformative potential of these agents, we introduce ScienceBoard, which encompasses two complementary contributions: (i) a realistic, multi-domain environment featuring dynamic and visually rich scientific workflows with integrated professional software, where agents can autonomously interact via different interfaces to accelerate complex research tasks and experiments; and (ii) a challenging benchmark of 169 high-quality, rigorously validated real-world tasks curated by humans, spanning scientific-discovery workflows in domains such as biochemistry, astronomy, and geoinformatics. Extensive evaluations of agents with state-of-the-art backbones (e.g., GPT-4o, Claude 3.7, UI-TARS) show that, despite some promising results, they still fall short of reliably assisting scientists in complex workflows, achieving only a 15% overall success rate. In-depth analysis further provides valuable insights for addressing current agent limitations and more effective design principles, paving the way to build more capable agents for scientific discovery. Our code, environment, and benchmark are at https://qiushisun.github.io/ScienceBoard-Home/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理を超えてその影響を拡大し、学際的な研究の発展を著しく促進している。
近年,複数の分野にまたがる科学的発見の進展を支援するために,LSMをベースとした様々なエージェントが開発されている。
これらのうち、人間のようにオペレーティングシステムと対話できるコンピュータ利用エージェントは、研究者のワークフローにおける科学的な問題解決と対処ルーチンの自動化への道を開いた。
これらのエージェントのトランスフォーメーションの可能性を認識し,2つの補完的貢献を含むScienceBoardを紹介する。
i) エージェントが様々なインターフェースを介して自律的に対話し、複雑な研究タスクや実験を加速する、ダイナミックで視覚的に豊かな科学ワークフローを備えた現実的でマルチドメイン環境。
(II)生物化学、天文学、地理情報学などの分野における科学的発見のワークフローにまたがる、169の高品質で厳格に検証された現実世界のタスクの挑戦的なベンチマーク。
最先端のバックボーンを持つエージェント(例えば、GPT-4o、Claude 3.7、UI-TARS)の広範囲な評価は、いくつかの有望な結果にもかかわらず、複雑なワークフローにおいて科学者を確実に支援することができず、全体の成功率は15%に過ぎなかったことを示している。
詳細な分析は、現在のエージェントの制限とより効果的な設計原則に対処するための貴重な洞察を与え、科学的な発見のためにより有能なエージェントを構築する方法を確立している。
私たちのコード、環境、ベンチマークはhttps://qiushisun.github.io/ScienceBoard-Home/です。
関連論文リスト
- Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents [11.74019905854637]
大規模言語モデル(LLM)は、重要なタスクを自動化する科学的エージェントへと進化している。
汎用LLMとは異なり、特殊エージェントはドメイン固有の知識、高度なツールセット、堅牢な検証メカニズムを統合する。
一般的なエージェントと異なる理由と、さまざまな科学分野の研究を進める方法を強調します。
論文 参考訳(メタデータ) (2025-03-31T13:11:28Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - SciOps: Achieving Productivity and Reliability in Data-Intensive Research [0.8414742293641504]
科学者たちは、実験や研究の目標を拡大するために、機器、自動化、協調ツールの進歩をますます活用している。
神経科学を含む様々な科学分野は、コラボレーション、インスピレーション、自動化を強化するための重要な技術を採用してきた。
厳密な科学的操作の原理を説明する5段階の能力成熟度モデルを導入する。
論文 参考訳(メタデータ) (2023-12-29T21:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。