論文の概要: SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models
- arxiv url: http://arxiv.org/abs/2503.13503v1
- Date: Wed, 12 Mar 2025 11:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:06.609310
- Title: SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models
- Title(参考訳): SciHorizon: 科学データから大規模言語モデルへのAI学習準備のベンチマーク
- Authors: Chuan Qin, Xin Chen, Chengrui Wang, Pengmin Wu, Xi Chen, Yihang Cheng, Jingyi Zhao, Meng Xiao, Xiangchao Dong, Qingqing Long, Boya Pan, Han Wu, Chengzan Li, Yuanchun Zhou, Hui Xiong, Hengshu Zhu,
- Abstract要約: SciHorizonは、科学データと大規模言語モデルの両方の観点からAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
複数の科学分野にまたがるLCMの能力を評価するために,知識,理解,推論,マルチモダリティ,価値の5つのコア指標に基づいて,16のアセスメントを定めている。
- 参考スコア(独自算出の注目度): 36.724471610075696
- License:
- Abstract: In recent years, the rapid advancement of Artificial Intelligence (AI) technologies, particularly Large Language Models (LLMs), has revolutionized the paradigm of scientific discovery, establishing AI-for-Science (AI4Science) as a dynamic and evolving field. However, there is still a lack of an effective framework for the overall assessment of AI4Science, particularly from a holistic perspective on data quality and model capability. Therefore, in this study, we propose SciHorizon, a comprehensive assessment framework designed to benchmark the readiness of AI4Science from both scientific data and LLM perspectives. First, we introduce a generalizable framework for assessing AI-ready scientific data, encompassing four key dimensions: Quality, FAIRness, Explainability, and Compliance which are subdivided into 15 sub-dimensions. Drawing on data resource papers published between 2018 and 2023 in peer-reviewed journals, we present recommendation lists of AI-ready datasets for both Earth and Life Sciences, making a novel and original contribution to the field. Concurrently, to assess the capabilities of LLMs across multiple scientific disciplines, we establish 16 assessment dimensions based on five core indicators Knowledge, Understanding, Reasoning, Multimodality, and Values spanning Mathematics, Physics, Chemistry, Life Sciences, and Earth and Space Sciences. Using the developed benchmark datasets, we have conducted a comprehensive evaluation of over 20 representative open-source and closed source LLMs. All the results are publicly available and can be accessed online at www.scihorizon.cn/en.
- Abstract(参考訳): 近年、人工知能(AI)技術の急速な進歩、特にLarge Language Models(LLM)は科学的発見のパラダイムに革命をもたらし、ダイナミックで進化する分野としてAI4Science(AI-for-Science)を確立している。
しかし、AI4Scienceの全体的な評価のための効果的なフレームワークがまだ存在しない。
そこで本研究では,SciHorizonを提案する。SciHorizonは,科学データとLLMの両方の観点から,AI4Scienceの即応性を評価するための総合的な評価フレームワークである。
まず、AI対応の科学データを評価するための一般化可能なフレームワークを紹介し、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を15のサブディメンジョンに分割する。
2018年から2023年の間、ピアレビューされたジャーナルに掲載されたデータリソースの論文に基づいて、地球と生命科学の両方のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をした。
同時に、複数の科学分野にまたがるLLMの能力を評価するために、数学、物理、化学、生命科学、地球と宇宙科学にまたがる5つの中核指標、理解、推論、マルチモダリティ、価値に基づく16の評価次元を確立する。
開発したベンチマークデータセットを用いて,20以上のオープンソースおよびクローズドソースLLMの総合評価を行った。
すべての結果は公開されており、www.scihorizon.cn/en.comでオンラインでアクセスすることができる。
関連論文リスト
- Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation [58.064940977804596]
多くの新しいAIモデルとツールが提案され、世界中の研究者や学者が研究をより効果的かつ効率的に実施できるようにすることを約束している。
これらのツールの欠点と誤用の可能性に関する倫理的懸念は、議論の中で特に顕著な位置を占める。
論文 参考訳(メタデータ) (2025-02-07T18:26:45Z) - Bridging AI and Science: Implications from a Large-Scale Literature Analysis of AI4Science [25.683422870223076]
本稿では,AI4Science文献の大規模解析を行う。
我々は,AI手法と科学的問題の主な相違点を定量的に強調する。
我々は,AIと科学コミュニティの協力を促進する可能性と課題について検討する。
論文 参考訳(メタデータ) (2024-11-27T00:40:51Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。