論文の概要: SciCode: A Research Coding Benchmark Curated by Scientists
- arxiv url: http://arxiv.org/abs/2407.13168v1
- Date: Thu, 18 Jul 2024 05:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:51:58.121914
- Title: SciCode: A Research Coding Benchmark Curated by Scientists
- Title(参考訳): SciCode:科学者がキュレーションした研究コードベンチマーク
- Authors: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng,
- Abstract要約: 言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
このベンチマークには数学、物理学、化学、生物学、材料科学といった問題が含まれています。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
- 参考スコア(独自算出の注目度): 37.900374175754465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.
- Abstract(参考訳): 言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
本稿では,実科学研究問題を解くためのコードを生成するLMの能力を調べることで,この問題に対処する。
数学、物理学、化学、生物学、材料科学を含む16の分野の科学者とAI研究者からのインプットを取り入れて、科学者が計算したコーディングベンチマークであるSciCodeを作成しました。
SciCodeの問題は自然に複数のサブプロブレムに分解され、それぞれが知識のリコール、推論、コード合成を含む。
SciCodeには、80の課題から切り離された338のサブプロブレムが含まれている。
科学的な背景情報と科学者が注釈を付けたゴールドスタンダードのソリューションと評価のためのテストケースを指定するオプション記述を提供する。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
SciCodeは、現代のLMが有用な科学アシスタントになるための進歩を実証し、科学AIの開発と評価に光を当てていると信じている。
関連論文リスト
- Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - Exploring Code Comprehension in Scientific Programming: Preliminary Insights from Research Scientists [6.2329239454115415]
本研究では、さまざまな分野の57人の科学者を対象に、コード可読性に関して直面するプログラミングの背景、実践、課題について調査する。
科学者は主にPythonとRを使用し、可読性に関するドキュメントに依存している。
以上の結果から,コード品質ツールの採用率の低下と,コード品質を改善するために大規模言語モデルを活用する傾向が示唆された。
論文 参考訳(メタデータ) (2025-01-17T08:47:29Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - Artificial intelligence for science: The easy and hard problems [1.8722948221596285]
我々は科学者の認知科学を研究し、人間がどのように難しい問題を解くかを理解する。
結果を用いて、科学パラダイムを自動推論し、更新する新しい計算エージェントを設計する。
論文 参考訳(メタデータ) (2024-08-24T18:22:06Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - "Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。
我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:14:27Z) - A Review of Neuroscience-Inspired Machine Learning [58.72729525961739]
バイオプルーシブル・クレジット・アサインメントは、事実上あらゆる学習条件と互換性があり、エネルギー効率が高い。
本稿では,人工ニューラルネットワークにおける信用代入の生体評価可能なルールをモデル化する,いくつかの重要なアルゴリズムについて検討する。
我々は,このようなアルゴリズムを実用アプリケーションでより有用にするためには,今後の課題に対処する必要があることを論じる。
論文 参考訳(メタデータ) (2024-02-16T18:05:09Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。