論文の概要: AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science
- arxiv url: http://arxiv.org/abs/2502.01159v1
- Date: Mon, 03 Feb 2025 08:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:03.173835
- Title: AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science
- Title(参考訳): AtmosSci-Bench:大気科学のための大規模言語モデルの最近の進歩を評価する
- Authors: Chenyue Li, Wen Deng, Mengqian Lu, Binhang Yuan,
- Abstract要約: 本稿では,大気科学問題の5つの中核カテゴリにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークを提案する。
我々はテンプレートベースの質問生成フレームワークを採用し、大学院レベルの大気科学問題から、スケーラブルで多様な複数選択の質問を可能にする。
我々の分析は、大気科学におけるLCMの推論と問題解決能力に関する興味深い洞察を与えてくれる。
- 参考スコア(独自算出の注目度): 2.7804525903465964
- License:
- Abstract: The rapid advancements in large language models (LLMs), particularly in their reasoning capabilities, hold transformative potential for addressing complex challenges in atmospheric science. However, leveraging LLMs effectively in this domain requires a robust and comprehensive evaluation benchmark. To address this need, we present AtmosSci-Bench, a novel benchmark designed to systematically assess LLM performance across five core categories of atmospheric science problems: hydrology, atmospheric dynamics, atmospheric physics, geophysics, and physical oceanography. We employ a template-based question generation framework, enabling scalable and diverse multiple-choice questions curated from graduate-level atmospheric science problems. We conduct a comprehensive evaluation of representative LLMs, categorized into four groups: instruction-tuned models, advanced reasoning models, math-augmented models, and domain-specific climate models. Our analysis provides some interesting insights into the reasoning and problem-solving capabilities of LLMs in atmospheric science. We believe AtmosSci-Bench can serve as a critical step toward advancing LLM applications in climate service by offering a standard and rigorous evaluation framework. Our source codes are currently available at https://github.com/Relaxed-System-Lab/AtmosSci-Bench.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩、特にその推論能力は、大気科学における複雑な課題に対処するための変革的ポテンシャルを保っている。
しかし、この領域でLLMを効果的に活用するには、堅牢で包括的な評価ベンチマークが必要である。
このニーズに対処するため、我々は大気科学の5つの中核分野(水文学、大気力学、大気物理学、地球物理学、物理海洋学)でLLMの性能を体系的に評価する新しいベンチマークであるAtmosSci-Benchを紹介した。
我々はテンプレートベースの質問生成フレームワークを採用し、大学院レベルの大気科学問題から、スケーラブルで多様な複数選択の質問を可能にする。
代表的なLCMを総合的に評価し、命令調整モデル、高度な推論モデル、数学強化モデル、ドメイン固有の気候モデルという4つのグループに分類する。
我々の分析は、大気科学におけるLCMの推論と問題解決能力に関する興味深い洞察を与えてくれる。
私たちは、AtmosSci-Benchが、標準的で厳格な評価フレームワークを提供することで、気候サービスにおけるLLMアプリケーションを進めるための重要なステップとなると信じています。
ソースコードは現在https://github.com/Relaxed-System-Lab/AtmosSci-Bench.comで公開されています。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Physics-Guided Foundation Model for Scientific Discovery: An Application to Aquatic Science [13.28811382673697]
事前学習したMLモデルと物理モデルを組み合わせたtextittextbfPhysics-textbfGuided textbfFoundation textbfModel(textbfPGFM)を提案する。
実世界の湖沼における水温と溶存酸素動態のモデル化における本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-10T00:48:10Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - ClimaQA: An Automated Evaluation Framework for Climate Foundation Models [38.05357439484919]
気候学者と大学院の教科書から質問応答ペアを生成する自動化フレームワークであるClimaGenを開発した。
気候科学のための大規模で総合的な総合的なQAデータセットであるClimaQA-Silverとともに、専門家による注釈付きベンチマークデータセットであるClimaQA-Goldを提示する。
論文 参考訳(メタデータ) (2024-10-22T05:12:19Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study [2.672038860046272]
大気科学における最先端のAIアプリケーションは、古典的なディープラーニングアプローチに基づいている。
本報告では, 現状の基盤モデルであるGPT-4oが, 様々な大気科学的課題を遂行する方法について検討する。
論文 参考訳(メタデータ) (2024-07-25T07:57:34Z) - Assessing Large Language Models on Climate Information [5.034118180129635]
本稿では,Large Language Models (LLMs) を評価するための,科学コミュニケーション研究を基盤とした総合的な評価フレームワークを提案する。
本フレームワークは,8次元と30の課題にまたがるLLM世代を詳細に解析し,提示応答と妥当性の両方を強調した。
スケーラブルな監視のための新しいプロトコルを導入し、AIアシストと関連する教育のレーダに依存します。
論文 参考訳(メタデータ) (2023-10-04T16:09:48Z) - SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research [11.816426823341134]
これらの問題に対処するための総合的・多分野評価ベンチマークSciEvalを提案する。
ブルームの分類に基づいて、SciEvalは科学的研究能力を体系的に評価する4つの次元をカバーしている。
主観的質問も主観的質問もSciEvalに含まれる。
論文 参考訳(メタデータ) (2023-08-25T03:05:33Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - ClimaX: A foundation model for weather and climate [51.208269971019504]
ClimaXは気象と気候科学のディープラーニングモデルである。
気候データセットの自己教師型学習目標で事前トレーニングすることができる。
気候や気候の様々な問題に対処するために、微調整が可能である。
論文 参考訳(メタデータ) (2023-01-24T23:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。