論文の概要: SciCode: A Research Coding Benchmark Curated by Scientists
- arxiv url: http://arxiv.org/abs/2407.13168v1
- Date: Thu, 18 Jul 2024 05:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-19 16:51:58.121914
- Title: SciCode: A Research Coding Benchmark Curated by Scientists
- Title(参考訳): SciCode:科学者がキュレーションした研究コードベンチマーク
- Authors: Minyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng,
- Abstract要約: 言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
このベンチマークには数学、物理学、化学、生物学、材料科学といった問題が含まれています。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
- 参考スコア(独自算出の注目度): 37.900374175754465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since language models (LMs) now outperform average humans on many challenging tasks, it has become increasingly difficult to develop challenging, high-quality, and realistic evaluations. We address this issue by examining LMs' capabilities to generate code for solving real scientific research problems. Incorporating input from scientists and AI researchers in 16 diverse natural science sub-fields, including mathematics, physics, chemistry, biology, and materials science, we created a scientist-curated coding benchmark, SciCode. The problems in SciCode naturally factorize into multiple subproblems, each involving knowledge recall, reasoning, and code synthesis. In total, SciCode contains 338 subproblems decomposed from 80 challenging main problems. It offers optional descriptions specifying useful scientific background information and scientist-annotated gold-standard solutions and test cases for evaluation. Claude3.5-Sonnet, the best-performing model among those tested, can solve only 4.6% of the problems in the most realistic setting. We believe that SciCode demonstrates both contemporary LMs' progress towards becoming helpful scientific assistants and sheds light on the development and evaluation of scientific AI in the future.
- Abstract(参考訳): 言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
本稿では,実科学研究問題を解くためのコードを生成するLMの能力を調べることで,この問題に対処する。
数学、物理学、化学、生物学、材料科学を含む16の分野の科学者とAI研究者からのインプットを取り入れて、科学者が計算したコーディングベンチマークであるSciCodeを作成しました。
SciCodeの問題は自然に複数のサブプロブレムに分解され、それぞれが知識のリコール、推論、コード合成を含む。
SciCodeには、80の課題から切り離された338のサブプロブレムが含まれている。
科学的な背景情報と科学者が注釈を付けたゴールドスタンダードのソリューションと評価のためのテストケースを指定するオプション記述を提供する。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
SciCodeは、現代のLMが有用な科学アシスタントになるための進歩を実証し、科学AIの開発と評価に光を当てていると信じている。
関連論文リスト
- Scaling Laws in Scientific Discovery with AI and Robot Scientists [72.3420699173245]
自律的なジェネラリスト科学者(AGS)の概念は、エージェントAIとエンボディロボットを組み合わせて、研究ライフサイクル全体を自動化している。
AGSは科学的発見に必要な時間と資源を大幅に削減することを目指している。
これらの自律的なシステムが研究プロセスにますます統合されるにつれて、科学的な発見が新しいスケーリング法則に従うかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2025-03-28T14:00:27Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [7.41837850475371]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - Evaluating Sakana's AI Scientist for Autonomous Research: Wishful Thinking or an Emerging Reality Towards 'Artificial Research Intelligence' (ARI)? [19.524056927240498]
サカナは先日,AI Scientistを導入して,自律的に研究を行うこと,すなわち,私たちがARI(Artificial Research Intelligence)と呼ぶものを達成したことを示唆している,と主張している。
AI Scientistの評価は、重大な欠点を明らかにします。
論文 参考訳(メタデータ) (2025-02-20T06:22:03Z) - Exploring Code Comprehension in Scientific Programming: Preliminary Insights from Research Scientists [6.2329239454115415]
本研究では、さまざまな分野の57人の科学者を対象に、コード可読性に関して直面するプログラミングの背景、実践、課題について調査する。
科学者は主にPythonとRを使用し、可読性に関するドキュメントに依存している。
以上の結果から,コード品質ツールの採用率の低下と,コード品質を改善するために大規模言語モデルを活用する傾向が示唆された。
論文 参考訳(メタデータ) (2025-01-17T08:47:29Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - Artificial intelligence for science: The easy and hard problems [1.8722948221596285]
我々は科学者の認知科学を研究し、人間がどのように難しい問題を解くかを理解する。
結果を用いて、科学パラダイムを自動推論し、更新する新しい計算エージェントを設計する。
論文 参考訳(メタデータ) (2024-08-24T18:22:06Z) - The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery [14.465756130099091]
本稿では,完全自動科学的発見のための最初の包括的枠組みについて述べる。
我々は、新しい研究アイデアを生成し、コードを書き、実験を実行し、結果を視覚化し、その結果を説明するThe AI Scientistを紹介します。
原則として、このプロセスは、人間の科学コミュニティのように行動しながら、オープンな方法でアイデアを反復的に発展させることができる。
論文 参考訳(メタデータ) (2024-08-12T16:58:11Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - "Turing Tests" For An AI Scientist [0.0]
本稿では,AIエージェントが独立して科学的研究を行うことができるかどうかを評価するために,AI科学者の研修試験を提案する。
我々は,AIエージェントが様々な科学領域において画期的な発見を行う能力を評価する7つのベンチマークテストを提案する。
論文 参考訳(メタデータ) (2024-05-22T05:14:27Z) - A Review of Neuroscience-Inspired Machine Learning [58.72729525961739]
バイオプルーシブル・クレジット・アサインメントは、事実上あらゆる学習条件と互換性があり、エネルギー効率が高い。
本稿では,人工ニューラルネットワークにおける信用代入の生体評価可能なルールをモデル化する,いくつかの重要なアルゴリズムについて検討する。
我々は,このようなアルゴリズムを実用アプリケーションでより有用にするためには,今後の課題に対処する必要があることを論じる。
論文 参考訳(メタデータ) (2024-02-16T18:05:09Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。