論文の概要: SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?
- arxiv url: http://arxiv.org/abs/2507.05241v2
- Date: Tue, 08 Jul 2025 15:54:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 12:20:17.834876
- Title: SciMaster: Towards General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: Can We Lead on Humanity's Last Exam?
- Title(参考訳): SciMaster: General-Purpose Scientific AI Agents, Part I. X-Master as Foundation: We can led on Humanity's Last Exam?
- Authors: Jingyi Chai, Shuo Tang, Rui Ye, Yuwen Du, Xinyu Zhu, Mengcheng Zhou, Yanfeng Wang, Weinan E, Yuzhi Zhang, Linfeng Zhang, Siheng Chen,
- Abstract要約: 本稿では,人間研究者をエミュレートするツール強化推論エージェントであるX-Masterを紹介する。
XマスターズはHumanity's Last Examに32.1%のスコアで最新記録を樹立した。
- 参考スコア(独自算出の注目度): 51.112225746095746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements of AI agents have ignited the long-held ambition of leveraging them to accelerate scientific discovery. Achieving this goal requires a deep understanding of the frontiers of human knowledge. As such, Humanity's Last Exam (HLE) provides an exceptionally challenging touchstone for evaluating scientific AI agents. In this work, we aim to construct the foundational architecture for general-purpose agents and validate the capabilities through leading performance on HLE. To achieve this, we introduce X-Master, a tool-augmented reasoning agent designed to emulate human researchers by interacting flexibly with external tools during its reasoning process. This agent, guided by the conceptualization of code as an interaction language, can flexibly leverage built-in Python libraries and our customized tools to augment the reasoning. We further scale its capabilities through X-Masters, a scattered-and-stacked agentic workflow that systematically enhances breadth and depth of reasoning. Our open-source solution, X-Masters, sets a new state-of-the-art record on HLE with a score of 32.1%, surpassing OpenAI's and Google's Deep Research (26.6% and 26.9%) and becoming the first to exceed the 30% threshold. This work allows us to gain a deeper understanding of complex task-solving and accumulates valuable experience that can inform future advancements, guiding subsequent model training.
- Abstract(参考訳): AIエージェントの急速な進歩は、科学的な発見を加速するためにそれらを活用するという長年の野望に火をつけた。
この目標を達成するには、人間の知識のフロンティアを深く理解する必要がある。
このように、HLE(Humanity's Last Exam)は、科学的なAIエージェントを評価する上で、非常に難しい手掛かりを提供する。
本研究は,汎用エージェントの基本アーキテクチャの構築と,HLEの性能向上による性能評価を目的としている。
そこで我々は,その推論プロセス中に外部ツールと柔軟に対話することで,人間の研究者をエミュレートするツール拡張推論エージェントであるX-Masterを紹介した。
このエージェントは、対話言語としてのコードの概念化によって導かれるもので、Pythonライブラリとカスタマイズされたツールを柔軟に活用して、推論を強化することができます。
X-Mastersは分散・スタックされたエージェントワークフローで、体系的に推論の幅と深さを拡大します。
私たちのオープンソースソリューションであるX-Mastersは、32.1%のスコアでHLEに新たな最先端記録を樹立し、OpenAIとGoogleのDeep Research(26.6%と26.9%)を上回り、初めて30%を超える閾値に達した。
この研究により、複雑なタスク解決の理解を深め、将来の進歩を知らせる貴重な経験を蓄積し、その後のモデルトレーニングを導くことができる。
関連論文リスト
- Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce [45.348336032930845]
作業員がAIエージェントの自動化や強化を望んでいるかを評価するための新しい枠組みを導入する。
我々のフレームワークは、ニュアンスな労働者の欲求を捉えるために、オーディオ強化されたミニインタービューを備えている。
我々はWORKBankデータベースを構築し、1500のドメインワーカーの好みとAI専門家の能力評価を収集する。
論文 参考訳(メタデータ) (2025-06-06T23:05:52Z) - The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search [16.93028430619359]
AI Scientist-v2は、AIが生成した最初のピアレビュー受け入れワークショップ用紙を生産できるエンドツーエンドのエージェントシステムである。
科学的な仮説を反復的に定式化し、実験を設計し、実行し、データを分析し、視覚化し、科学的な原稿を自律的に作成する。
ある写本は、平均的な人間の受け入れ閾値を超える十分なスコアを達成し、完全なAI生成論文がピアレビューをうまくナビゲートした最初の事例となった。
論文 参考訳(メタデータ) (2025-04-10T18:44:41Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされる
まず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。
単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文 参考訳(メタデータ) (2023-09-14T17:12:03Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。