論文の概要: CodeScientist: End-to-End Semi-Automated Scientific Discovery with Code-based Experimentation
- arxiv url: http://arxiv.org/abs/2503.22708v1
- Date: Thu, 20 Mar 2025 22:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-06 07:01:53.215771
- Title: CodeScientist: End-to-End Semi-Automated Scientific Discovery with Code-based Experimentation
- Title(参考訳): CodeScientist: コードベースの実験による半自動科学発見
- Authors: Peter Jansen, Oyvind Tafjord, Marissa Radensky, Pao Siangliulue, Tom Hope, Bhavana Dalvi Mishra, Bodhisattwa Prasad Majumder, Daniel S. Weld, Peter Clark,
- Abstract要約: CodeScientistは、遺伝的検索の形式として、アイデアと実験を共同で行う新しいASDシステムである。
我々はこのパラダイムを用いて、エージェントと仮想環境の領域において、機械生成のアイデアを幅広く数百もの自動実験する。
- 参考スコア(独自算出の注目度): 48.12054700748627
- License:
- Abstract: Despite the surge of interest in autonomous scientific discovery (ASD) of software artifacts (e.g., improved ML algorithms), current ASD systems face two key limitations: (1) they largely explore variants of existing codebases or similarly constrained design spaces, and (2) they produce large volumes of research artifacts (such as automatically generated papers and code) that are typically evaluated using conference-style paper review with limited evaluation of code. In this work we introduce CodeScientist, a novel ASD system that frames ideation and experiment construction as a form of genetic search jointly over combinations of research articles and codeblocks defining common actions in a domain (like prompting a language model). We use this paradigm to conduct hundreds of automated experiments on machine-generated ideas broadly in the domain of agents and virtual environments, with the system returning 19 discoveries, 6 of which were judged as being both at least minimally sound and incrementally novel after a multi-faceted evaluation beyond that typically conducted in prior work, including external (conference-style) review, code review, and replication attempts. Moreover, the discoveries span new tasks, agents, metrics, and data, suggesting a qualitative shift from benchmark optimization to broader discoveries.
- Abstract(参考訳): ソフトウェアアーティファクトの自律的科学的発見(ASD)への関心の高まり(例えば、改良されたMLアルゴリズム)にもかかわらず、現在のASDシステムは、(1)既存のコードベースや同様の制約のある設計空間の変種を主に探求し、(2)コードの評価を限定した会議スタイルの論文レビューを用いて評価される大量の研究アーティファクト(自動生成された論文やコードなど)を生成する、という2つの重要な制限に直面している。
本研究では,研究論文と共通行動を定義するコードブロック(言語モデルなど)を組み合わせた遺伝的検索の形式として,概念化と実験を行う新しいASDシステムであるCodeScientistを紹介する。
このパラダイムは、エージェントや仮想環境の領域において、機械生成のアイデアを広範囲に展開する数百の自動化実験を行うために使用され、システム内の6つの発見は、外部(会議スタイル)のレビュー、コードレビュー、複製試行を含む、従来の作業以上に、少なくとも最小限のサウンドと漸進的な評価の両方であると判断された。
さらに、発見は新しいタスク、エージェント、メトリクス、データにまたがっており、ベンチマーク最適化からより広範な発見への質的なシフトが示唆されている。
関連論文リスト
- Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field [0.0]
本稿では,異なる研究トピック間の意味的関係を識別する大規模モデルの能力について分析する。
我々はそのタスクを評価するためにIEEE Thesaurusに基づく金の標準を開発した。
Mixtral-8x7B、Dolphin-Mistral、Claude 3-7Bなど、いくつかの優れた結果が得られた。
論文 参考訳(メタデータ) (2024-12-11T10:11:41Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - Fast and Slow Generating: An Empirical Study on Large and Small Language Models Collaborative Decoding [27.004817441034795]
大規模言語モデルと小言語モデル(SLM)の協調的復号化は,これらの問題を緩和するための有望な戦略を示す。
両プロセス認知理論に着想を得て,FS-GEN(Fast and Slow Generating)と呼ばれる統合フレームワークを提案する。
このフレームワーク内では、LSMはSystem 2(slow and intention)に、独立したSLMはSystem 1に分類される。
論文 参考訳(メタデータ) (2024-06-18T05:59:28Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - SIERRA: A Modular Framework for Research Automation and Reproducibility [6.1678491628787455]
本稿では,研究の加速と成果向上のための新しいフレームワークであるSIERRAを紹介する。
SIERRAは、独立変数上のクエリから実行可能な実験を生成するプロセスを自動化することで研究を加速する。
個々の研究者のニーズに応じてカスタマイズと拡張が容易なモジュラーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2022-08-16T15:36:34Z) - Automated Creation and Human-assisted Curation of Computable Scientific
Models from Code and Text [2.3746609573239756]
ドメインエキスパートは、コードに詳しくなければ、科学的モデルの実装を完全に理解することはできない。
我々は,科学モデルの自動作成と人手によるキュレーションのためのシステムを開発した。
本研究では,NASAのハイパーソニック・エアロダイナミックス(Hypersonic Aerodynamics)のウェブサイトから得られたコードと関連テキストのデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-01-28T17:31:38Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Memetic Search for Vehicle Routing with Simultaneous Pickup-Delivery and
Time Windows [31.512563458410963]
本稿では,この問題を解決するために,局所探索を効率的に行うメメティックアルゴリズム(MATE)を提案する。
MATEは最先端のアルゴリズムをすべて上回り、特に12インスタンス(合計65インスタンス)でよく知られた新しいソリューションを見つける。
論文 参考訳(メタデータ) (2020-11-12T12:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。