論文の概要: S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research
- arxiv url: http://arxiv.org/abs/2602.01550v1
- Date: Mon, 02 Feb 2026 02:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.847764
- Title: S1-NexusAgent: a Self-Evolving Agent Framework for Multidisciplinary Scientific Research
- Title(参考訳): S1-NexusAgent:多分野科学研究のための自己進化型エージェントフレームワーク
- Authors: S1-NexusAgent Team,
- Abstract要約: S1-NexusAgentは科学研究のための自己進化型エージェントフレームワークである。
S1-NexusAgentは階層的なPlan-and-CodeAct実行パラダイムを採用し、サブタスクレベルのツール実行からグローバルな科学的計画を切り離している。
S1-NexusAgentは最先端の一般化性能を達成し、複雑な科学的タスクにおけるその有効性と能力を検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern scientific research relies on large-scale data, complex workflows, and specialized tools, which existing LLMs and tool-based agents struggle to handle due to limitations in long-horizon planning, robust goal maintenance, and continual learning from execution. To address these issues, in this work, we propose S1-NexusAgent, a self-evolving agent framework designed for multidisciplinary scientific research. S1-NexusAgent adopts a hierarchical Plan-and-CodeAct execution paradigm, decoupling global scientific planning from subtask-level tool execution through a dual-loop architecture, thereby enabling stable modeling of complex research workflows. The system natively supports the Model Context Protocol (MCP), integrates up to thousands of cross-disciplinary scientific tools, and achieves efficient orchestration of heterogeneous research tools via intention-aware dynamic tool retrieval and hot-plug mechanisms. To address long-context and large-scale data challenges in scientific settings, S1-NexusAgent introduces object-reference-based sparse context management, which enables sub-task context isolation and intermediate result compression. Building on this, a Critic Agent automatically evaluates complete execution trajectories and distills high-quality research paths into reusable Scientific Skills, forming a closed loop for continuous self-evolution, which is valuable for sustainable and long-horizon scientific research. Experiments on authoritative scientific benchmarks involving long-horizon planning and complex specialized tool orchestration, including biomini-eval (biology), ChemBench (chemistry), and MatSciBench (material science), demonstrate that S1-NexusAgent achieves state-of-the-art performance, validating its effectiveness and generalization capability in complex scientific tasks.
- Abstract(参考訳): 現代の科学的研究は、大規模データ、複雑なワークフロー、特殊ツールに依存しており、既存のLLMやツールベースのエージェントは、長期計画の限界、堅牢な目標維持、実行からの継続的な学習のために対処に苦労している。
本稿では,これらの課題に対処するために,多分野の科学研究用に設計された自己進化型エージェントフレームワークであるS1-NexusAgentを提案する。
S1-NexusAgentは階層的なPlan-and-CodeAct実行パラダイムを採用し、サブタスクレベルのツール実行からデュアルループアーキテクチャを通じてグローバルな科学的計画を分離することで、複雑な研究ワークフローの安定したモデリングを可能にする。
このシステムは、モデルコンテキストプロトコル(MCP)をネイティブにサポートし、最大数千の学際的な科学ツールを統合し、意図認識の動的ツール検索とホットプラグ機構を通じて、異種研究ツールの効率的なオーケストレーションを実現する。
S1-NexusAgentは、科学的設定における長期コンテキストと大規模データ課題に対処するため、サブタスクコンテキスト分離と中間結果圧縮を可能にするオブジェクト参照ベースのスパースコンテキスト管理を導入している。
批判的エージェントは、完全な実行軌跡を自動で評価し、高品質な研究パスを再利用可能な科学スキルに蒸留し、持続的で長期の科学研究に有用な継続的自己進化のためのクローズドループを形成する。
バイオミニ・エバル(生物学)、ケムベンチ(化学)、マトシベンチ(物質科学)など、長期計画と複雑な特殊ツールオーケストレーションを含む権威ある科学的ベンチマークの実験は、S1-NexusAgentが最先端のパフォーマンスを達成し、複雑な科学的タスクにおけるその有効性と一般化能力を検証することを実証している。
関連論文リスト
- Bohrium + SciMaster: Building the Infrastructure and Ecosystem for Agentic Science at Scale [82.20980951765891]
エージェントサイエンスのスケーリングにはインフラストラクチャ・アンド・エコシステムアプローチが必要である,と我々は主張する。
BohriumはAI4S資産のマネージドでトレース可能なハブとして機能し、多様な科学データ、ソフトウェア、計算、実験室のシステムをエージェント対応の能力に変換する。
SciMasterはこれらの機能を長い水平科学に編成し、科学エージェントを合成して実行することができる。
論文 参考訳(メタデータ) (2025-12-23T16:04:41Z) - An Agentic Framework for Autonomous Materials Computation [70.24472585135929]
大規模言語モデル(LLM)は、科学的発見を加速するための強力なツールとして登場した。
近年の進歩はLLMをエージェントフレームワークに統合し、複雑な科学実験のための検索、推論、ツールの使用を可能にしている。
本稿では,第一原理計算の信頼性向上を目的としたドメイン特化エージェントを提案する。
論文 参考訳(メタデータ) (2025-12-22T15:03:57Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite [75.58737079136942]
本稿では,AstaBenchについて紹介する。AstaBenchは,科学的研究を行うためのエージェント能力の総合的な測定を行うスイートである。
私たちのスイートには、プロダクショングレードの検索ツールを備えた、最初の科学研究環境が付属しています。
22のエージェントクラスで57のエージェントを評価したところ,いくつかの興味深い結果が得られた。
論文 参考訳(メタデータ) (2025-10-24T17:10:26Z) - AutoLabs: Cognitive Multi-Agent Systems with Self-Correction for Autonomous Chemical Experimentation [0.10999592665107412]
AutoLabsは、自然言語命令を自動で実行可能なプロトコルに変換するように設計された、自己修正型マルチエージェントアーキテクチャである。
複雑化に関する5つのベンチマーク実験を特徴とする総合評価フレームワークを提案する。
以上の結果から,エージェント推論能力が成功の最も重要な要因であることが示唆された。
論文 参考訳(メタデータ) (2025-09-30T01:51:46Z) - EpidemIQs: Prompt-to-Paper LLM Agents for Epidemic Modeling and Analysis [0.0]
大規模言語モデル(LLM)は、複雑な学際研究を自動化する新しい機会を提供する。
EpidemIQsは、ユーザ入力を統合し、文献のレビュー、分析的導出、ネットワークモデリング、シミュレーションの呼び出し、データの可視化と分析、そして最後に構造化された原稿での発見の文書化を行う、新しいマルチエージェントLCMフレームワークである。
我々は、計算コスト、完成率、AIおよび生成されたレポートの人間専門家レビューを測定する様々なシナリオにおいて、エピデムIQを評価した。
論文 参考訳(メタデータ) (2025-09-24T18:54:56Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。