論文の概要: Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery
- arxiv url: http://arxiv.org/abs/2507.07257v1
- Date: Wed, 09 Jul 2025 20:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.194732
- Title: Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery
- Title(参考訳): 自律的科学的発見のための言語エージェントを用いたオープンソース計画制御システム
- Authors: Licong Xu, Milind Sarkar, Anto I. Lonappan, Íñigo Zubeldia, Pablo Villanueva-Domingo, Santiago Casas, Christian Fidler, Chetana Amancharla, Ujjwal Tiwari, Adrian Bayer, Chadi Ait Ekiou, Miles Cranmer, Adrian Dimitrov, James Fergusson, Kahaan Gandhi, Sven Krippendorf, Andrew Laverick, Julien Lesgourgues, Antony Lewis, Thomas Meier, Blake Sherwin, Kristen Surrao, Francisco Villaescusa-Navarro, Chi Wang, Xueqing Xu, Boris Bolliet,
- Abstract要約: cmbagentは、科学研究タスクの自動化のためのマルチエージェントシステムである。
エージェントワークフローをオーケストレーションするためのプランニングとコントロールの戦略を実装している。
このシステムはHuggingFace上にデプロイされ、クラウド上で利用できるようになる。
- 参考スコア(独自算出の注目度): 5.326072982491534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a multi-agent system for automation of scientific research tasks, cmbagent. The system is formed by about 30 Large Language Model (LLM) agents and implements a Planning & Control strategy to orchestrate the agentic workflow, with no human-in-the-loop at any point. Each agent specializes in a different task (performing retrieval on scientific papers and codebases, writing code, interpreting results, critiquing the output of other agents) and the system is able to execute code locally. We successfully apply cmbagent to carry out a PhD level cosmology task (the measurement of cosmological parameters using supernova data) and evaluate its performance on two benchmark sets, finding superior performance over state-of-the-art LLMs. The source code is available on GitHub, demonstration videos are also available, and the system is deployed on HuggingFace and will be available on the cloud.
- Abstract(参考訳): 科学研究タスクの自動化のためのマルチエージェントシステムであるcmbagentを提案する。
このシステムはおよそ30のLarge Language Model (LLM)エージェントによって構成され、エージェントワークフローのオーケストレーションのためのプランニングとコントロールの戦略を実装している。
各エージェントは、異なるタスク(科学論文やコードベースでの検索、コードの記述、結果の解釈、他のエージェントの出力のクオリティ)を専門とし、システムはローカルでコードを実行することができる。
pDレベルの宇宙論タスク(超新星データを用いた宇宙パラメータの測定)を実行するためにcmbagentをうまく適用し、2つのベンチマークセット上での性能を評価し、最先端のLCMよりも優れた性能を示す。
ソースコードはGitHubで入手でき、デモビデオも入手でき、システムはHuggingFaceにデプロイされ、クラウドで利用できる。
関連論文リスト
- AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。
既存のエージェントサーチ手法には3つの大きな制限がある。
これらの課題に対処するための包括的なフレームワークを導入します。
論文 参考訳(メタデータ) (2025-06-06T12:07:23Z) - ResearchCodeAgent: An LLM Multi-Agent System for Automated Codification of Research Methodologies [16.90884865239373]
本研究では,研究方法論の体系化を自動化する新しいマルチエージェントシステムであるResearchCodeAgentを紹介する。
このシステムは、ハイレベルな研究概念と実践的な実装のギャップを埋める。
ResearchCodeAgentは、研究実施プロセスに向けた重要なステップであり、機械学習研究のペースを加速する可能性がある。
論文 参考訳(メタデータ) (2025-04-28T07:18:45Z) - A Self-Improving Coding Agent [23.44829720834145]
LLM(Large Language Models)は、LLMエージェントを世界に向けて展開することへの関心を喚起している。
本稿では,基本的なコーディングツールを備えたエージェントシステムが,自らを自律的に編集し,ベンチマークタスクの性能を向上させることを実証する。
論文 参考訳(メタデータ) (2025-04-21T16:58:18Z) - The AI Cosmologist I: An Agentic System for Automated Data Analysis [0.0]
AIの宇宙論者は、アイデア生成から実験評価、研究普及までの完全なパイプラインを実装している。
従来の自動機械学習システムとは異なり、AI Cosmoologistは多様な実装戦略を生成する。
その結果, エージェントシステムは研究プロセスの一部を自動化し, 科学的発見を加速させる可能性が示唆された。
論文 参考訳(メタデータ) (2025-04-04T13:12:08Z) - Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows? [73.81908518992161]
我々は、プロのデータサイエンスとエンジニアリングに焦点を当てた最初のマルチモーダルエージェントベンチマークであるSpider2-Vを紹介する。
Spider2-Vは、本物のコンピュータ環境における現実世界のタスクを特徴とし、20のエンタープライズレベルのプロフェッショナルアプリケーションを組み込んでいる。
これらのタスクは、エンタープライズデータソフトウェアシステムにおいて、コードを書き、GUIを管理することで、マルチモーダルエージェントがデータ関連のタスクを実行する能力を評価する。
論文 参考訳(メタデータ) (2024-07-15T17:54:37Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。