論文の概要: CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2503.13517v1
- Date: Fri, 14 Mar 2025 17:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:04.307847
- Title: CURIE: Evaluating LLMs On Multitask Scientific Long Context Understanding and Reasoning
- Title(参考訳): CURIE: マルチタスクの科学的長期理解と推論におけるLLMの評価
- Authors: Hao Cui, Zahra Shamsi, Gowoon Cheon, Xuejian Ma, Shutong Li, Maria Tikhanovskaya, Peter Norgaard, Nayantara Mudur, Martyna Plomecka, Paul Raccuglia, Yasaman Bahri, Victor V. Albert, Pranesh Srinivasan, Haining Pan, Philippe Faist, Brian Rohr, Michael J. Statt, Dan Morris, Drew Purves, Elise Kleeman, Ruth Alcantara, Matthew Abraham, Muqthar Mohammad, Ean Phing VanLee, Chenfei Jiang, Elizabeth Dorfman, Eun-Ah Kim, Michael P Brenner, Viren Jain, Sameera Ponda, Subhashini Venugopalan,
- Abstract要約: 我々は、科学的な問題解決におけるLarge Language Models(LLM)の可能性を測定するためのベンチマークであるCURIEを紹介する。
このベンチマークでは、合計580の課題と6つの分野の専門家がキュレートしたソリューションペアを備えた10の課題が紹介されている。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
- 参考スコア(独自算出の注目度): 7.41837850475371
- License:
- Abstract: Scientific problem-solving involves synthesizing information while applying expert knowledge. We introduce CURIE, a scientific long-Context Understanding,Reasoning and Information Extraction benchmark to measure the potential of Large Language Models (LLMs) in scientific problem-solving and assisting scientists in realistic workflows. This benchmark introduces ten challenging tasks with a total of 580 problems and solution pairs curated by experts in six disciplines - materials science, condensed matter physics, quantum computing, geospatial analysis, biodiversity, and proteins - covering both experimental and theoretical work-flows in science. We evaluate a range of closed and open LLMs on tasks in CURIE which requires domain expertise, comprehension of long in-context information,and multi-step reasoning. While Gemini Flash 2.0 and Claude-3 show consistent high comprehension across domains, the popular GPT-4o and command-R+ fail dramatically on protein sequencing tasks. With the best performance at 32% there is much room for improvement for all models. We hope that insights gained from CURIE can guide the future development of LLMs in sciences. Evaluation code and data are in https://github.com/google/curie
- Abstract(参考訳): 科学的問題解決には、専門家の知識を適用しながら情報を合成することが含まれる。
CURIEという科学的な長期理解・推論・情報抽出のベンチマークを導入し、科学的な問題解決における大規模言語モデル(LLM)の可能性を測定し、現実的なワークフローにおける科学者を支援する。
このベンチマークでは、材料科学、凝縮物質物理学、量子コンピューティング、地理空間分析、生物多様性、タンパク質という6つの分野の専門家によって算出された、合計580の問題と解対を持つ10の挑戦的なタスクを紹介している。
CURIEのタスクには、ドメインの専門知識、長いコンテキスト内情報の理解、複数ステップの推論を必要とする、クローズドでオープンなLCMを幅広く評価する。
Gemini Flash 2.0 と Claude-3 はドメイン間で一貫した高い理解を示しているが、一般的な GPT-4o と command-R+ はタンパク質シークエンシングタスクで劇的に失敗する。
最高のパフォーマンスは32%ですが、すべてのモデルに改善の余地がたくさんあります。
我々は、CURIEから得られた知見が科学におけるLCMの今後の発展を導くことを願っている。
評価コードとデータはhttps://github.com/google/curieにある
関連論文リスト
- DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning [20.56989082014445]
MLLM(Multi-modal large language model)は、様々なタスクにまたがる有望な機能を示す。
本稿では,25種の代表的MLLMの科学的推論における性能について詳細に評価する。
最も優れた性能は、クロード3.5-ソネットによる数学の53.4%の精度、GPT-4oによる物理学の38.2%、ジェミニ1.5-Proによる化学の47.0%である。
論文 参考訳(メタデータ) (2024-09-10T01:20:26Z) - Towards Efficient Large Language Models for Scientific Text: A Review [4.376712802685017]
大規模言語モデル(LLM)は、科学を含む様々な分野において複雑な情報を処理するための新しい時代を迎えている。
LLMのパワーのため、非常に高価な計算資源、大量のデータ、訓練時間が必要である。
近年、研究者は科学的LLMをより手頃な価格にするための様々な手法を提案している。
論文 参考訳(メタデータ) (2024-08-20T10:57:34Z) - SciCode: A Research Coding Benchmark Curated by Scientists [37.900374175754465]
言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。
このベンチマークには数学、物理学、化学、生物学、材料科学といった問題が含まれています。
クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
論文 参考訳(メタデータ) (2024-07-18T05:15:24Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文 参考訳(メタデータ) (2024-05-06T08:42:34Z) - Beyond Factuality: A Comprehensive Evaluation of Large Language Models
as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。
しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。
本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文 参考訳(メタデータ) (2023-10-11T08:22:37Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Workflow Provenance in the Lifecycle of Scientific Machine Learning [1.6118907823528272]
我々は、科学MLのライフサイクルをサポートするために、ワークフロー技術を活用して全体像を構築する。
i)データ分析のライフサイクルと分類の特徴づけ、(ii)W3C PROVに準拠したデータ表現と参照システムアーキテクチャを用いて、この視点を構築するための設計原則、(iii)393ノードと946GPUを持つHPCクラスタを用いて、石油・ガスのケースでの評価から学んだ教訓に貢献する。
論文 参考訳(メタデータ) (2020-09-30T13:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。