論文の概要: Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents
- arxiv url: http://arxiv.org/abs/2502.16069v1
- Date: Sat, 22 Feb 2025 03:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:22.326086
- Title: Curie: Toward Rigorous and Automated Scientific Experimentation with AI Agents
- Title(参考訳): Curie: AIエージェントによる厳格で自動化された科学実験を目指して
- Authors: Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, Ang Chen,
- Abstract要約: 実験プロセスに厳密さを組み込むように設計されたAIフレームワークであるCurieを提案する。
Curieには信頼性を高めるためのエージェント内リガーモジュール、方法論的な制御を維持するためのエージェント間リガーモジュール、解釈性を高めるための実験知識モジュールが含まれている。
テストされた最強のベースラインと比較すると、実験的な質問に正しく答えることにおいて、3.4$times$改善が達成される。
- 参考スコア(独自算出の注目度): 21.001278669360346
- License:
- Abstract: Scientific experimentation, a cornerstone of human progress, demands rigor in reliability, methodical control, and interpretability to yield meaningful results. Despite the growing capabilities of large language models (LLMs) in automating different aspects of the scientific process, automating rigorous experimentation remains a significant challenge. To address this gap, we propose Curie, an AI agent framework designed to embed rigor into the experimentation process through three key components: an intra-agent rigor module to enhance reliability, an inter-agent rigor module to maintain methodical control, and an experiment knowledge module to enhance interpretability. To evaluate Curie, we design a novel experimental benchmark composed of 46 questions across four computer science domains, derived from influential research papers, and widely adopted open-source projects. Compared to the strongest baseline tested, we achieve a 3.4$\times$ improvement in correctly answering experimental questions.Curie is open-sourced at https://github.com/Just-Curieous/Curie.
- Abstract(参考訳): 科学的実験は人間の進歩の基礎であり、信頼性、系統制御、解釈可能性の厳格さを要求して有意義な結果をもたらす。
大きな言語モデル(LLM)が科学的プロセスの様々な側面を自動化しているにもかかわらず、厳密な実験を自動化することは大きな課題である。
このギャップに対処するため,我々は,信頼性向上のためのエージェント内リガーモジュール,方法論的な制御を維持するエージェント間リガーモジュール,解釈性向上のための実験知識モジュールという,実験プロセスにリガーを組み込むように設計されたAIエージェントフレームワークであるCurieを提案する。
キュリーを評価するために,4つのコンピュータ科学領域にまたがる46の質問からなる新しい実験ベンチマークを設計した。
テストされた最強のベースラインと比較すると、実験的な質問に正しく答える3.4$\times$の改善が達成され、Qurieはhttps://github.com/Just-Curieous/Curie.comでオープンソース化されている。
関連論文リスト
- MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。
これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。
我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文 参考訳(メタデータ) (2025-02-20T12:28:23Z) - AutoSciLab: A Self-Driving Laboratory For Interpretable Scientific Discovery [1.1740681158785793]
AutoSciLabは、自律的な科学実験を駆動するための機械学習フレームワークである。
これは高次元空間における科学的発見を目的とした代理研究者を形成する。
オープンエンドなナノフォトニクスの課題に私たちのフレームワークを適用することで、AutoSciLabは、非コヒーレント発光を誘導する根本的に新しい方法を発見しました。
論文 参考訳(メタデータ) (2024-12-16T20:41:46Z) - Agents for self-driving laboratories applied to quantum computing [2.840384720502993]
本稿では,実験者の実験知識の組織化とエージェントによる実験の自動化を支援するため,k-agentsフレームワークを提案する。
本フレームワークでは,実験結果の分析方法を含む実験室の知識をカプセル化するために,大規模言語モデルに基づくエージェントを用いている。
実験を自動化するために,複数ステップの実験手順をステートマシンに分割し,他のエージェントと対話して各ステップの実行を行い,実験結果を解析する実行エージェントを導入する。
論文 参考訳(メタデータ) (2024-12-10T23:30:44Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery [23.773528748933934]
44の査読論文から4つの分野の102の課題を抽出し,9つの課題の専門家による検証を行った。
我々は、各タスクのターゲット出力を、自己完結型のPythonプログラムファイルに統一する。
データ汚染の懸念を軽減するための2つの効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:33:50Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - Uncertainty Quantification 360: A Holistic Toolkit for Quantifying and
Communicating the Uncertainty of AI [49.64037266892634]
我々は、AIモデルの不確実性定量化のためのオープンソースのPythonツールキットUncertainty Quantification 360 (UQ360)について述べる。
このツールキットの目標は2つある: ひとつは、AIアプリケーション開発ライフサイクルにおける不確実性を定量化し、評価し、改善し、伝達する共通のプラクティスを育むとともに、合理化するための幅広い能力を提供すること、もうひとつは、信頼できるAIの他の柱とのUQの接続をさらに探求することである。
論文 参考訳(メタデータ) (2021-06-02T18:29:04Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。