論文の概要: The Ever-Evolving Science Exam
- arxiv url: http://arxiv.org/abs/2507.16514v1
- Date: Tue, 22 Jul 2025 12:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.103191
- Title: The Ever-Evolving Science Exam
- Title(参考訳): 絶え間なく進化する科学エグゼクティブ
- Authors: Junying Wang, Zicheng Zhang, Yijin Guo, Farong Wen, Ye Shen, Yingji Liang, Yalun Wu, Wenzhe Li, Chunyi Li, Zijian Chen, Qi Jia, Guangtao Zhai,
- Abstract要約: The *Ever-Evolving Science Exam (EESE)* was introduced the **Ever-Evolving Science Exam (EESE)*。
1)5つの分野と500以上のサブフィールドにまたがる専門的な科学インスタンス(クエスト・アンサー・ペア)と,2)定期的に更新された500インスタンスサブセット**EESE*,サンプルと検証により,リーク耐性,低オーバヘッド評価を実現する。
- 参考スコア(独自算出の注目度): 32.17328333609302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As foundation models grow rapidly in capability and deployment, evaluating their scientific understanding becomes increasingly critical. Existing science benchmarks have made progress towards broad **Range**, wide **Reach**, and high **Rigor**, yet they often face two major challenges: **data leakage risks** that compromise benchmarking validity, and **evaluation inefficiency** due to large-scale testing. To address these issues, we introduce the **Ever-Evolving Science Exam (EESE)**, a dynamic benchmark designed to reliably assess scientific capabilities in foundation models. Our approach consists of two components: 1) a non-public **EESE-Pool** with over 100K expertly constructed science instances (question-answer pairs) across 5 disciplines and 500+ subfields, built through a multi-stage pipeline ensuring **Range**, **Reach**, and **Rigor**, 2) a periodically updated 500-instance subset **EESE**, sampled and validated to enable leakage-resilient, low-overhead evaluations. Experiments on 32 open- and closed-source models demonstrate that EESE effectively differentiates the strengths and weaknesses of models in scientific fields and cognitive dimensions. Overall, EESE provides a robust, scalable, and forward-compatible solution for science benchmark design, offering a realistic measure of how well foundation models handle science questions. The project page is at: https://github.com/aiben-ch/EESE.
- Abstract(参考訳): 基礎モデルが能力と展開において急速に成長するにつれて、その科学的理解を評価することがますます重要になる。
既存の科学ベンチマークは、広く*Range**、ワイド*Reach**、ハイ*Rigor*に進歩しているが、ベンチマークの妥当性を損なう**データ漏洩リスク**と、大規模なテストによる**評価非効率*の2つの大きな課題に直面している。
これらの問題に対処するために,基礎モデルの科学的能力を確実に評価するための動的ベンチマークである**Ever-Evolving Science Exam (EESE)*を導入する。
私たちのアプローチは2つのコンポーネントで構成されています。
1) 公開されていない**EESE-Pool*で、専門的に5つの分野と500以上のサブフィールドにまたがって100万以上の科学インスタンス(クエスト・アンサー・ペア)を構築、**Range**、**Reach**、**Rigor**を保証するマルチステージパイプラインで構築する。
2) 定期的に更新された500インスタンスのサブセット**EESE**は、リーク耐性の低い低オーバーヘッド評価を可能にするためにサンプリングされ、検証されている。
32のオープンソースモデルとクローズドソースモデルの実験により、EESEは科学分野や認知次元におけるモデルの強みと弱みを効果的に区別することを示した。
全体として、EESEは科学ベンチマーク設計のための堅牢でスケーラブルで前方互換性のあるソリューションを提供し、基礎モデルが科学的な問題にどのように対処するかの現実的な指標を提供する。
プロジェクトページは以下の通り。
関連論文リスト
- Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision [15.806243963561776]
Sci-CoEは2段階の科学的共進化フレームワークであり、モデルが解法と検証器の両方として自己進化することを可能にする。
最初の段階では、モデルは注釈付きデータの小さなセットを使用して、検証器の正当性判定アンカーを確立する。
第2段階では、コンセンサス、信頼性、多様性を共同で考慮し、大規模な自己評価を促進する幾何学的報酬機構を導入する。
論文 参考訳(メタデータ) (2026-02-12T16:46:00Z) - HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。
HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (2025-12-28T12:08:05Z) - Evaluating Large Language Models in Scientific Discovery [91.732562776782]
大規模言語モデル (LLMs) は科学研究にますます応用されてきているが、科学ベンチマークでは非文脈化された知識を探索している。
生物, 化学, 材料, 物理にまたがるLSMを評価するシナリオグラウンドベンチマークを提案する。
このフレームワークは、(i)シナリオタイドアイテムの質問レベル精度と(ii)プロジェクトレベルのパフォーマンスの2つのレベルでモデルを評価する。
論文 参考訳(メタデータ) (2025-12-17T16:20:03Z) - ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - SciTrust 2.0: A Comprehensive Framework for Evaluating Trustworthiness of Large Language Models in Scientific Applications [0.9650932290026195]
大規模言語モデル(LLM)は、科学的研究において変革の可能性を示しているが、その高い文脈への展開は、重大な信頼性の懸念を引き起こす。
本稿では,科学応用におけるLCMの信頼性を評価するための総合的なフレームワークであるSciTrust 2.0を紹介する。
論文 参考訳(メタデータ) (2025-10-29T19:22:55Z) - Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark [49.42250115889234]
本研究では,研究レベルの推論タスクにおいて,大規模言語モデル(LLM)をテストするために設計された最初のベンチマークを示す。
CritPtは71の複合研究課題からなる。
現在最先端のLCMは、孤立したチェックポイントを早期に保証しているが、完全な研究スケールの課題を確実に解決できるには程遠い。
論文 参考訳(メタデータ) (2025-09-30T17:34:03Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [24.72798058808192]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。
PhysUniBenchは、3,304の物理問題から成っている。
ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文 参考訳(メタデータ) (2025-06-21T09:55:42Z) - SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification [29.63899315962693]
SciVerは1,113件の科学論文に3000件の専門家による注釈付き例からなり、4つのサブセットをカバーし、それぞれがマルチモーダルな科学的クレーム検証において共通の推論タイプを表している。
我々は、o4-mini、Gemini-2.5-Flash、Llama-3.2-Vision、Qwen2.5-VLを含む21の最先端マルチモーダル基盤モデルの性能を評価する。
実験の結果,これらのモデルとSciVerの人間専門家の間には,かなりの性能差があることが判明した。
論文 参考訳(メタデータ) (2025-06-18T15:43:26Z) - CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning [12.396302011805755]
我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
論文 参考訳(メタデータ) (2025-03-14T17:53:03Z) - SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.724471610075696]
SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文 参考訳(メタデータ) (2025-03-12T11:34:41Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems [62.06169250463104]
我々はOlympiadレベルのバイリンガル・マルチモーダル・サイエンス・ベンチマークであるOlympiadBenchを紹介し、Olympiadレベルの数学と物理学のコンペティションの8,476の問題を特徴とする。
最も優れたモデルであるGPT-4Vはオリンピアドベンチで平均17.97%を獲得し、物理学ではわずか10.74%である。
GPT-4Vの分析では、幻覚、知識欠失、論理的誤信などの問題が指摘されている。
論文 参考訳(メタデータ) (2024-02-21T18:49:26Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。