論文の概要: SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
- arxiv url: http://arxiv.org/abs/2512.22334v1
- Date: Fri, 26 Dec 2025 17:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.002092
- Title: SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence
- Title(参考訳): SciEvalKit: 科学汎用インテリジェンスのためのオープンソースの評価ツールキット
- Authors: Yiheng Wang, Yixin Chen, Shuo Li, Yifan Zhou, Bo Liu, Hengjian Gao, Jiakang Yuan, Jia Bu, Wanghan Xu, Yuhao Zhou, Xiangyu Zhao, Zhiwang Zhou, Fengxiang Wang, Haodong Duan, Songyang Zhang, Jun Yao, Han Deng, Yizhou Wang, Jiabei Xiao, Jiaqi Liu, Encheng Su, Yujie Liu, Weida Wang, Junchi Yao, Shenghe Zheng, Haoran Sun, Runmin Ma, Xiangchao Yan, Bo Zhang, Dongzhan Zhou, Shufei Zhang, Peng Ye, Xiaosong Wang, Shixiang Tang, Wenlong Zhang, Lei Bai,
- Abstract要約: SciEvalKitは、科学知能のコア能力に焦点を当てている。
物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。
このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
- 参考スコア(独自算出の注目度): 99.30934038146965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SciEvalKit, a unified benchmarking toolkit designed to evaluate AI models for science across a broad range of scientific disciplines and task capabilities. Unlike general-purpose evaluation platforms, SciEvalKit focuses on the core competencies of scientific intelligence, including Scientific Multimodal Perception, Scientific Multimodal Reasoning, Scientific Multimodal Understanding, Scientific Symbolic Reasoning, Scientific Code Generation, Science Hypothesis Generation and Scientific Knowledge Understanding. It supports six major scientific domains, spanning from physics and chemistry to astronomy and materials science. SciEvalKit builds a foundation of expert-grade scientific benchmarks, curated from real-world, domain-specific datasets, ensuring that tasks reflect authentic scientific challenges. The toolkit features a flexible, extensible evaluation pipeline that enables batch evaluation across models and datasets, supports custom model and dataset integration, and provides transparent, reproducible, and comparable results. By bridging capability-based evaluation and disciplinary diversity, SciEvalKit offers a standardized yet customizable infrastructure to benchmark the next generation of scientific foundation models and intelligent agents. The toolkit is open-sourced and actively maintained to foster community-driven development and progress in AI4Science.
- Abstract(参考訳): 我々はSciEvalKitを紹介した。SciEvalKitは、科学のためのAIモデルを評価するために設計された統合ベンチマークツールキットである。
汎用的な評価プラットフォームとは異なり、SciEvalKitは科学的マルチモーダル知覚、科学的マルチモーダル推論、科学的マルチモーダル理解、科学的シンボリック推論、科学的コード生成、科学仮説生成、科学的知識理解などの科学的知能のコア能力に焦点を当てている。
物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。
SciEvalKitは、現実世界のドメイン固有のデータセットからキュレーションされた、エキスパートグレードの科学ベンチマークの基礎を構築し、タスクが真に科学的課題を反映することを保証する。
このツールキットはフレキシブルで拡張可能な評価パイプラインを備えており、モデルとデータセット間のバッチ評価を可能にし、カスタムモデルとデータセットの統合をサポートし、透過的で再現性があり、同等の結果を提供する。
SciEvalKitは、能力に基づく評価と学際的な多様性をブリッジすることによって、次世代の科学基盤モデルとインテリジェントエージェントをベンチマークするために、標準化されながらカスタマイズ可能なインフラストラクチャを提供する。
このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
関連論文リスト
- HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。
HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文 参考訳(メタデータ) (2025-12-28T12:08:05Z) - AInsteinBench: Benchmarking Coding Agents on Scientific Repositories [33.48206557020983]
AInsteinBenchは、大規模言語モデル(LLM)エージェントが科学計算開発エージェントとして動作するかどうかを評価するための大規模なベンチマークである。
AInsteinBenchは、表面レベルのコード生成を超えて、計算科学研究に必要なコア能力に移行するモデルの能力を測定する。
論文 参考訳(メタデータ) (2025-12-24T08:11:11Z) - Autonomous Agents for Scientific Discovery: Orchestrating Scientists, Language, Code, and Physics [82.55776608452017]
大規模言語モデル(LLM)は、人間の科学者、自然言語、コンピュータ言語とコード、物理学との相互作用を編成する柔軟性と汎用性を備えたフレームワークを提供する。
本稿では, LLMを基盤とした科学エージェントの展望と展望と, 科学発見のライフサイクルを変革する上でのその役割について述べる。
オープンな研究課題を特定し、より堅牢で汎用的で適応的な科学エージェントを構築するための有望な方向性を概説する。
論文 参考訳(メタデータ) (2025-10-10T22:26:26Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [32.21228080662089]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models [35.839640555805374]
SciCUEvalは、大規模言語モデル(LLM)の科学的文脈理解能力を評価するためのベンチマークデータセットである。
生物学、化学、物理学、生物医学、材料科学にまたがる10のドメイン固有のサブデータセットで構成され、構造化テーブル、知識グラフ、構造化されていないテキストを含む多様なデータモダリティを統合する。
関連情報識別、情報理解検出、マルチソース情報統合、コンテキスト認識推論の4つのコア能力を、様々な質問形式を通じて体系的に評価する。
論文 参考訳(メタデータ) (2025-05-21T04:33:26Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。