論文の概要: SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.15094v1
- Date: Wed, 21 May 2025 04:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.867338
- Title: SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models
- Title(参考訳): SciCUEval:大規模言語モデルにおける科学的文脈理解の評価のための包括的データセット
- Authors: Jing Yu, Yuqi Tang, Kehua Feng, Mingyang Rao, Lei Liang, Zhiqiang Zhang, Mengshu Sun, Wen Zhang, Qiang Zhang, Keyan Ding, Huajun Chen,
- Abstract要約: SciCUEvalは、大規模言語モデル(LLM)の科学的文脈理解能力を評価するためのベンチマークデータセットである。
生物学、化学、物理学、生物医学、材料科学にまたがる10のドメイン固有のサブデータセットで構成され、構造化テーブル、知識グラフ、構造化されていないテキストを含む多様なデータモダリティを統合する。
関連情報識別、情報理解検出、マルチソース情報統合、コンテキスト認識推論の4つのコア能力を、様々な質問形式を通じて体系的に評価する。
- 参考スコア(独自算出の注目度): 35.839640555805374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities in contextual understanding and reasoning. However, evaluating their performance across diverse scientific domains remains underexplored, as existing benchmarks primarily focus on general domains and fail to capture the intricate complexity of scientific data. To bridge this gap, we construct SciCUEval, a comprehensive benchmark dataset tailored to assess the scientific context understanding capability of LLMs. It comprises ten domain-specific sub-datasets spanning biology, chemistry, physics, biomedicine, and materials science, integrating diverse data modalities including structured tables, knowledge graphs, and unstructured texts. SciCUEval systematically evaluates four core competencies: Relevant information identification, Information-absence detection, Multi-source information integration, and Context-aware inference, through a variety of question formats. We conduct extensive evaluations of state-of-the-art LLMs on SciCUEval, providing a fine-grained analysis of their strengths and limitations in scientific context understanding, and offering valuable insights for the future development of scientific-domain LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈的理解と推論において印象的な能力を示している。
しかし、既存のベンチマークは一般的な領域に重点を置いており、科学的データの複雑な複雑さを捉えることができないため、様々な科学的領域におけるそれらのパフォーマンスの評価は未定である。
このギャップを埋めるため,LLMの科学的文脈理解能力を評価するための総合的なベンチマークデータセットであるSciCUEvalを構築した。
生物学、化学、物理学、生物医学、材料科学にまたがる10のドメイン固有のサブデータセットで構成され、構造化テーブル、知識グラフ、構造化されていないテキストを含む多様なデータモダリティを統合する。
SciCUEvalは、関連情報識別、情報理解検出、マルチソース情報統合、コンテキスト認識推論の4つのコア能力を、様々な質問形式を通じて体系的に評価する。
我々はSciCUEval上で最先端のLLMを広範囲に評価し、科学的文脈理解におけるその強みと限界を詳細に分析し、科学ドメインLLMの今後の発展に有用な洞察を提供する。
関連論文リスト
- RLDBF: Enhancing LLMs Via Reinforcement Learning With DataBase FeedBack [15.24890160206967]
本研究は,構造化された科学データを用いた大規模言語モデルの強化に関する体系的な研究の先駆者である。
大規模モデルにおける数値的不感度の固有の限界に対処するために,データベースフィードバックを用いた強化学習という,革新的な方法論を提案する。
論文 参考訳(メタデータ) (2025-03-28T14:18:29Z) - SciHorizon: Benchmarking AI-for-Science Readiness from Scientific Data to Large Language Models [36.724471610075696]
SciHorizonはAI4Scienceの可読性を評価するために設計された総合的なアセスメントフレームワークである。
まず、品質、FAIRネス、説明可能性、コンプライアンスの4つの重要な側面を含む、AI対応の科学データを評価するための一般化可能なフレームワークを紹介します。
我々は、地球、生命、材料科学のためのAI対応データセットのレコメンデーションリストを提示し、この分野に新しく独自の貢献をする。
論文 参考訳(メタデータ) (2025-03-12T11:34:41Z) - Beyond Factual Accuracy: Evaluating Coverage of Diverse Factual Information in Long-form Text Generation [56.82274763974443]
ICATは、長文テキスト生成における多様な事実情報のカバレッジを測定するための評価フレームワークである。
原子の事実的クレームと出力で提示されるであろう様々な側面のアライメントを計算する。
私たちのフレームワークは、多様性とカバレッジの解釈可能かつきめ細かな分析を提供します。
論文 参考訳(メタデータ) (2025-01-07T05:43:23Z) - SciDQA: A Deep Reading Comprehension Dataset over Scientific Papers [20.273439120429025]
SciDQAは、科学論文の深い理解のためにLSMに挑戦する、理解を読むための新しいデータセットである。
他の科学的QAデータセットとは異なり、SciDQAはドメインの専門家によるピアレビューや論文の著者による回答から質問を出している。
SciDQAの質問は、図、表、方程式、付属品、補足材料にまたがる推論を必要とする。
論文 参考訳(メタデータ) (2024-11-08T05:28:22Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Rethinking Scientific Summarization Evaluation: Grounding Explainable Metrics on Facet-aware Benchmark [42.131133762827375]
本稿では,科学的要約の概念的および実験的分析について述べる。
要約を評価するために,先進的なセマンティックマッチングにLLMを用いたFacet-Aware Metric (FM)を導入する。
以上の結果から,FMは科学的要約を評価するためのより論理的なアプローチであることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-22T07:58:29Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。