論文の概要: SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.12984v1
- Date: Fri, 13 Feb 2026 14:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.994735
- Title: SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
- Title(参考訳): SciAgentGym: LLMエージェントにおけるマルチステップ科学ツールのベンチマーク
- Authors: Yujiong Shen, Yajie Yang, Zhiheng Xi, Binze Hu, Huayu Sha, Jiazheng Zhang, Qiyuan Peng, Junlin Shang, Jixuan Huang, Yutao Fan, Jingqi Tong, Shihan Dou, Ming Zhang, Lei Bai, Zhenfei Yin, Tao Gui, Xingjun Ma, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang,
- Abstract要約: SciGymAgentは4つの自然科学分野にまたがる1,780のドメイン固有ツールを備えたスケーラブルなインタラクティブ環境である。
SciAgentBenchについても紹介する。
- 参考スコア(独自算出の注目度): 100.12367115920121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific reasoning inherently demands integrating sophisticated toolkits to navigate domain-specific knowledge. Yet, current benchmarks largely overlook agents' ability to orchestrate tools for such rigorous workflows. To bridge this gap, we introduce SciAgentGym, a scalable interactive environment featuring 1,780 domain-specific tools across four natural science disciplines, supported by a robust execution infrastructure. Complementing this, we present SciAgentBench, a tiered evaluation suite designed to stress-test agentic capabilities from elementary actions to long-horizon workflows. Our evaluation identifies a critical bottleneck: state-of-the-art models struggle with complex scientific tool-use. Even for a leading model like GPT-5, success rates drop sharply from 60.6% to 30.9% as interaction horizons extend, primarily due to failures in multi-step workflow execution. To address this, we propose SciForge, a data synthesis method that models the tool action space as a dependency graph to generate logic-aware training trajectories. By fine-tuning on these trajectories, our SciAgent-8B outperforms the significantly larger Qwen3-VL-235B-Instruct while exhibiting positive cross-domain transfer of scientific tool-use capabilities. These results underscore the promising potential of next-generation autonomous scientific agents.
- Abstract(参考訳): 科学的推論は本質的に、ドメイン固有の知識をナビゲートするために洗練されたツールキットを統合することを要求する。
しかし、現在のベンチマークは、このような厳格なワークフローのためのツールをオーケストレーションするエージェントの能力を概ね見落としている。
このギャップを埋めるために、私たちはSciAgentGymを紹介します。SciAgentGymは、4つの自然科学分野にまたがる1,780のドメイン固有のツールを備えたスケーラブルなインタラクティブ環境で、堅牢な実行基盤によってサポートされています。
SciAgentBenchは,初等動作から長期ワークフローに至るまでのエージェント能力のストレステストを目的とした,階層型評価スイートである。
我々の評価は、最先端のモデルが複雑な科学的ツールの使用に苦しむという、重要なボトルネックを明らかにしている。
GPT-5のような主要なモデルであっても、対話の地平線が広がるにつれて成功率は60.6%から30.9%に急激に低下する。
そこで本稿では,ツールアクション空間を依存グラフとしてモデル化し,論理認識型トレーニングトラジェクトリを生成するデータ合成手法であるSciForgeを提案する。
我々のSciAgent-8Bは、これらの軌道を微調整することで、Qwen3-VL-235B-Instructよりも優れ、科学的ツール使用能力の正のクロスドメイン転送を示す。
これらの結果は次世代の自律科学エージェントの有望な可能性を示している。
関連論文リスト
- Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning [62.499592503950026]
大規模言語モデル(LLM)は、ツールや環境とのマルチターンインタラクションを必要とする複雑なタスクを実行するために、自律エージェントに権限を与えている。
完全合成環境生成パイプラインであるエージェント・ワールド・モデル(AWM)を提案する。
私たちは、エージェントがリッチなツールセットと対話できる、毎日のシナリオをカバーする1,000の環境にスケールします。
論文 参考訳(メタデータ) (2026-02-10T18:55:41Z) - S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research [0.0]
S1-NexusAgentは科学研究のための自己進化型エージェントフレームワークである。
S1-NexusAgentは階層的なPlan-and-CodeAct実行パラダイムを採用し、サブタスクレベルのツール実行からグローバルな科学的計画を切り離している。
S1-NexusAgentは最先端の一般化性能を達成し、複雑な科学的タスクにおけるその有効性と能力を検証する。
論文 参考訳(メタデータ) (2026-02-02T02:33:25Z) - Deploy-Master: Automating the Deployment of 50,000+ Agent-Ready Scientific Tools in One Day [37.83274797886782]
Deploy-Masterは、大規模なツール発見、ビルド仕様推論、実行ベースのバリデーション、パブリッシュのためのワンストップのエージェントワークフローである。
1日で52,550回のビルドテストを行い,50,112の科学的ツールで再現可能な環境を構築した。
スループット、コストプロファイル、障害面、大規模でしか見えない仕様の不確実性を特徴付ける5万ツール規模のデプロイメントトレースを報告します。
論文 参考訳(メタデータ) (2026-01-07T02:00:13Z) - Bohrium + SciMaster: Building the Infrastructure and Ecosystem for Agentic Science at Scale [82.20980951765891]
エージェントサイエンスのスケーリングにはインフラストラクチャ・アンド・エコシステムアプローチが必要である,と我々は主張する。
BohriumはAI4S資産のマネージドでトレース可能なハブとして機能し、多様な科学データ、ソフトウェア、計算、実験室のシステムをエージェント対応の能力に変換する。
SciMasterはこれらの機能を長い水平科学に編成し、科学エージェントを合成して実行することができる。
論文 参考訳(メタデータ) (2025-12-23T16:04:41Z) - SciToolAgent: A Knowledge Graph-Driven Scientific Agent for Multi-Tool Integration [39.43814195462455]
SciToolAgentは生物学、化学、材料科学にまたがる何百もの科学ツールを自動化する。
エージェントはまた、責任と倫理的ツールの使用を保証するために、包括的な安全チェックモジュールも組み込んでいる。
論文 参考訳(メタデータ) (2025-07-27T13:55:35Z) - SciAgent: Tool-augmented Language Models for Scientific Reasoning [129.51442677710452]
ツール強化科学推論という新しいタスク設定を導入する。
この設定は、スケーラブルなツールセットでLarge Language Modelsを補完する。
約3万のサンプルと約6,000のツールを含むツール拡張トレーニングコーパスであるMathFuncを構築した。
MathFunc上に構築したSciAgentは,科学的な問題解決のためのツールを検索し,理解し,必要に応じて利用する。
論文 参考訳(メタデータ) (2024-02-18T04:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。