論文の概要: FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks
- arxiv url: http://arxiv.org/abs/2601.21165v1
- Date: Thu, 29 Jan 2026 02:04:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.510574
- Title: FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks
- Title(参考訳): FrontierScience: 専門家レベルの科学的タスクを実行するAIの能力を評価する
- Authors: Miles Wang, Robi Lin, Kat Hu, Joy Jiao, Neil Chowdhury, Ethan Chang, Tejal Patwardhan,
- Abstract要約: 我々は、フロンティア言語モデルにおける専門家レベルの科学的推論を評価するベンチマークであるFrontierScienceを紹介する。
本研究では,研究課題の解決過程を通じて,モデル機能を評価するための粒度をベースとした評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.596967766594675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FrontierScience, a benchmark evaluating expert-level scientific reasoning in frontier language models. Recent model progress has nearly saturated existing science benchmarks, which often rely on multiple-choice knowledge questions or already published information. FrontierScience addresses this gap through two complementary tracks: (1) Olympiad, consisting of international olympiad problems at the level of IPhO, IChO, and IBO, and (2) Research, consisting of PhD-level, open-ended problems representative of sub-tasks in scientific research. FrontierScience contains several hundred questions (including 160 in the open-sourced gold set) covering subfields across physics, chemistry, and biology, from quantum electrodynamics to synthetic organic chemistry. All Olympiad problems are originally produced by international Olympiad medalists and national team coaches to ensure standards of difficulty, originality, and factuality. All Research problems are research sub-tasks written and verified by PhD scientists (doctoral candidates, postdoctoral researchers, or professors). For Research, we introduce a granular rubric-based evaluation framework to assess model capabilities throughout the process of solving a research task, rather than judging only a standalone final answer.
- Abstract(参考訳): 我々は、フロンティア言語モデルにおける専門家レベルの科学的推論を評価するベンチマークであるFrontierScienceを紹介する。
最近のモデル進歩は、ほとんど飽和した既存の科学ベンチマークで、しばしば複数の選択の知識の質問や既に公開された情報に依存している。
FrontierScience はこのギャップを,(1) Olympiad, IPhO, IChO, IBO レベルでの国際オリンピック問題,(2) 科学研究におけるサブタスクを代表するPhDレベルのオープンエンド問題からなる研究の2つの相補的なトラックを通して解決する。
FrontierScienceには、量子電気力学から有機化学まで、物理学、化学、生物学のサブフィールドをカバーする数百の質問(オープンソース金セットの160点を含む)が含まれている。
オリンピアードのすべての問題は、国際オリンピックのメダリストとナショナルチームのコーチによって、難易度、独創性、事実性の基準を保証するために作られたものである。
すべての研究問題は、博士論文(博士候補、博士研究員、教授)によって書かれた研究のサブタスクである。
本研究では,研究課題の解決過程を通じて,独立した最終回答のみを判断するのではなく,モデル機能を評価するための粒度の粗さに基づく評価フレームワークを提案する。
関連論文リスト
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [12.396302011805755]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。