Fugu-MT 論文翻訳(概要): CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

論文の概要: CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2503.13517v1
Date: Fri, 14 Mar 2025 17:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.557158
Title: CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning
Title（参考訳）: CURIE: マルチタスクの科学的長期理解と推論におけるLLMの評価
Authors: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan,
Abstract要約: 我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。 CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
参考スコア（独自算出の注目度）: 7.41837850475371
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scientific problem-solving involves synthesizing information while applying expert knowledge. We introduce CURIE, a scientific long-Context Understanding,Reasoning and Information Extraction benchmark to measure the potential of Large Language Models (LLMs) in scientific problem-solving and assisting scientists in realistic workflows. This benchmark introduces ten challenging tasks with a total of 580 problems and solution pairs curated by experts in six disciplines - materials science, condensed matter physics, quantum computing, geospatial analysis, biodiversity, and proteins - covering both experimental and theoretical work-flows in science. We evaluate a range of closed and open LLMs on tasks in CURIE which requires domain expertise, comprehension of long in-context information,and multi-step reasoning. While Gemini Flash 2.0 and Claude-3 show consistent high comprehension across domains, the popular GPT-4o and command-R+ fail dramatically on protein sequencing tasks. With the best performance at 32% there is much room for improvement for all models. We hope that insights gained from CURIE can guide the future development of LLMs in sciences. Evaluation code and data are in https://github.com/google/curie
Abstract（参考訳）: 科学的問題解決には、専門家の知識を適用しながら情報を合成することが含まれる。 CURIEという科学的な長期理解・推論・情報抽出のベンチマークを導入し、科学的な問題解決における大規模言語モデル(LLM)の可能性を測定し、現実的なワークフローにおける科学者を支援する。このベンチマークでは、材料科学、凝縮物質物理学、量子コンピューティング、地理空間分析、生物多様性、タンパク質という6つの分野の専門家によって算出された、合計580の問題と解対を持つ10の挑戦的なタスクを紹介している。 CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。 Gemini Flash 2.0 と Claude-3 はドメイン間で一貫した高い理解を示しているが、一般的な GPT-4o と command-R+ はタンパク質シークエンシングタスクで劇的に失敗する。最高のパフォーマンスは32%ですが、すべてのモデルに改善の余地がたくさんあります。我々は、CURIEから得られた知見が科学におけるLCMの今後の発展を導くことを願っている。評価コードとデータはhttps://github.com/google/curieにある

関連論文リスト

Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文参考訳（メタデータ） (2025-02-21T05:35:20Z)
DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文参考訳（メタデータ） (2024-09-12T02:08:00Z)
VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文参考訳（メタデータ） (2024-09-10T01:20:26Z)
SciCode: A Research Coding Benchmark Curated by Scientists [37.900374175754465]
言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。このベンチマークには数学、物理学、化学、生物学、材料科学といった問題が含まれています。クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
論文参考訳（メタデータ） (2024-07-18T05:15:24Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文参考訳（メタデータ） (2024-06-16T08:03:24Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文参考訳（メタデータ） (2023-10-11T08:22:37Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Workflow Provenance in the Lifecycle of Scientific Machine Learning [1.6118907823528272]
我々は、科学MLのライフサイクルをサポートするために、ワークフロー技術を活用して全体像を構築する。 i)データ分析のライフサイクルと分類の特徴づけ、(ii)W3C PROVに準拠したデータ表現と参照システムアーキテクチャを用いて、この視点を構築するための設計原則、(iii)393ノードと946GPUを持つHPCクラスタを用いて、石油・ガスのケースでの評価から学んだ教訓に貢献する。
論文参考訳（メタデータ） (2020-09-30T13:09:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。