論文の概要: ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis
- arxiv url: http://arxiv.org/abs/2604.16922v1
- Date: Sat, 18 Apr 2026 09:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.238651
- Title: ClimAgent: LLM as Agents for Autonomous Open-ended Climate Science Analysis
- Title(参考訳): ClimAgent: 自律型オープンエンド気候科学分析のためのエージェントとしてのLCM
- Authors: Hao Wang, Jindong Han, Wei Fan, Hao Liu,
- Abstract要約: ClimAgentは、多様な気候サブフィールドにまたがる幅広い研究課題を実行するために設計されたフレームワークである。
統一ツール利用環境と厳密な推論プロトコルを統合することで、ClimAgentは単純な検索を超越してエンドツーエンドのモデリングと分析を行う。
ClimAgent は最先端のベースラインを著しく上回り、ソリューションの厳密さと実用性において、元の LLM ソリューションよりも 40.21% 改善されている。
- 参考スコア(独自算出の注目度): 15.602458015516042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Climate research is pivotal for mitigating global environmental crises, yet the accelerating volume of multi-scale datasets and the complexity of analytical tools have created significant bottlenecks, constraining scientific discovery to fragmented and labor-intensive workflows. While the emergence Large Language Models (LLMs) offers a transformative paradigm to scale scientific expertise, existing explorations remain largely confined to simple Question-Answering (Q&A) tasks. These approaches often oversimplify real-world challenges, neglecting the intricate physical constraints and the data-driven nature required in professional climate science.To bridge this gap, we introduce ClimAgent, a general-purpose autonomous framework designed to execute a wide spectrum of research tasks across diverse climate sub-fields. By integrating a unified tool-use environment with rigorous reasoning protocols, ClimAgent transcends simple retrieval to perform end-to-end modeling and analysis.To foster systematic evaluation, we propose ClimaBench, the first comprehensive benchmark for real-world climate discovery. It encompasses challenging problems spanning 5 distinct task categories derived from professional scenarios between 2000 and 2025. Experiments on ClimaBench demonstrate that ClimAgent significantly outperforms state-of-the-art baselines, achieving a 40.21% improvement over original LLM solutions in solution rigorousness and practicality. Our code are available at https://github.com/usail-hkust/ClimAgent.
- Abstract(参考訳): 気候研究は、地球環境の危機を緩和するために重要であるが、マルチスケールデータセットの急増と分析ツールの複雑さは、科学的な発見を断片化して労働集約的なワークフローに制限する重大なボトルネックを生み出している。
出現するLarge Language Models (LLMs) は、科学的専門知識をスケールするための変革的パラダイムを提供する一方で、既存の探索は、単純なQ&A(Q&A)タスクに限られている。
これらのアプローチは、しばしば現実の課題を単純化し、専門的な気候科学で必要とされる複雑な物理的制約やデータ駆動性を無視し、このギャップを埋めるために、多様な気候サブフィールドにまたがる幅広い研究タスクを実行するために設計された汎用的な自律的フレームワークであるClimAgentを紹介します。
統合ツール利用環境を厳密な推論プロトコルと統合することにより、ClimAgentは単純な検索を超越してエンドツーエンドのモデリングと分析を行い、体系的な評価を促進するために、実世界の気候発見のための最初の総合的なベンチマークであるClimaBenchを提案する。
2000年から2025年にかけてのプロフェッショナルシナリオから派生した5つの異なるタスクカテゴリにまたがる、困難な問題を含んでいる。
ClimaBenchの実験では、ClimAgentは最先端のベースラインを大きく上回り、ソリューションの厳密さと実用性において、元のLLMソリューションよりも40.21%改善されている。
私たちのコードはhttps://github.com/usail-hkust/ClimAgent.comで公開しています。
関連論文リスト
- Opportunities in AI/ML for the Rubin LSST Dark Energy Science Collaboration [63.61423859450929]
この白書は、DESCの主要な宇宙探査と横断的分析を通して、AI/MLの現在の状況を調査している。
本研究では,大規模ベイズ推定,物理インフォームド手法,検証フレームワーク,発見のための能動的学習など,主要な方法論研究の優先事項を明らかにする。
論文 参考訳(メタデータ) (2026-01-20T18:46:42Z) - EWE: An Agentic Framework for Extreme Weather Analysis [61.092871317626496]
Extreme Weather Expert (EWE)は、このタスクに特化した最初のインテリジェントエージェントフレームワークである。
EWEは、知識誘導計画、クローズドループ推論、およびドメイン調整された気象ツールキットを通じて、専門家の可視化をエミュレートする。
進展を触媒するため、我々は103のハイインパクトイベントをキュレートしたデータセットを含む、この新興分野の最初のベンチマークを紹介した。
論文 参考訳(メタデータ) (2025-11-26T14:37:25Z) - CLIMATEAGENT: Multi-Agent Orchestration for Complex Climate Data Science Workflows [9.678989760151575]
我々は、エンドツーエンドの気候データ分析タスクを編成する、自律的なマルチエージェントフレームワークであるClimateAgentを紹介する。
Climate-Agent-Bench-85では、ClimateAgentが100%タスク完了とレポート品質スコア8.32を達成し、GitHub-Copilot(6.27)とGPT-5ベースライン(3.26)を上回りました。
その結果、動的API認識と自己修正実行を備えたマルチエージェントオーケストレーションが、気候科学分析タスクの信頼性とエンドツーエンドの自動化を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-11-25T09:27:33Z) - Climate Surrogates for Scalable Multi-Agent Reinforcement Learning: A Case Study with CICERO-SCM [4.330506300153804]
本研究では,高忠実で高効率な気候シュロゲートを環境ループに直接組み込むマルチエージェント強化学習フレームワークを提案する。
概念実証として,気候モデルCICERO-SCMをサロゲートするために,2万ドル(約220万円)のマルチガス排出経路で事前訓練された繰り返しニューラルネットワークアーキテクチャを導入する。
シュロゲートモデルは、大域平均温度 RMSE $approx 0.0004 MathrmK$ と約10,000 times$ 1ステップの高速推論でほぼシミュレータ精度を得る。
論文 参考訳(メタデータ) (2025-10-09T09:02:49Z) - ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows [82.07367406991678]
大規模言語モデル(LLM)は自然言語処理を超えてその影響を拡大している。
これらのうち、コンピュータ利用エージェントは、人間がしているようにオペレーティングシステムと対話することができる。
我々はScienceBoardを紹介し、ダイナミックで視覚的にリッチな科学ソフトウェアを特徴とする現実的でマルチドメイン環境を包含する。
論文 参考訳(メタデータ) (2025-05-26T12:27:27Z) - AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science [9.757412158154514]
大気科学問題の5つの中核カテゴリにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークを提案する。
AtmosSci-Benchは、マルチチョイス質問(MCQ)とオープンエンド質問(OEQ)の両方からなるデュアルフォーマット設計を備えている。
代表的なLCMを総合的に評価し、命令調整モデル、高度な推論モデル、数学強化モデル、ドメイン固有の気候モデルという4つのグループに分類する。
論文 参考訳(メタデータ) (2025-02-03T08:50:46Z) - On the Opportunities of (Re)-Exploring Atmospheric Science by Foundation Models: A Case Study [2.672038860046272]
大気科学における最先端のAIアプリケーションは、古典的なディープラーニングアプローチに基づいている。
本報告では, 現状の基盤モデルであるGPT-4oが, 様々な大気科学的課題を遂行する方法について検討する。
論文 参考訳(メタデータ) (2024-07-25T07:57:34Z) - DISCOVERYWORLD: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents [49.74065769505137]
本研究では,新しい科学的発見の完全なサイクルを実行するエージェントの能力を開発し,ベンチマークする最初の仮想環境であるDiscoVERYWORLDを紹介する。
8つのトピックにまたがる120の異なる課題タスクが含まれており、3レベルの難易度といくつかのパラメトリックなバリエーションがある。
従来の環境においてよく機能する強力なベースラインエージェントが、ほとんどのdiscoVERYWORLDタスクに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T20:08:44Z) - HECT: High-Dimensional Ensemble Consistency Testing for Climate Models [1.7587442088965226]
気候モデルは、気候変動が気候変動に与える影響を理解する上で重要な役割を担い、気候変動のリスクを軽減し、決定を通知する。
コミュニティアース・システム・モデル (CESM) のような大域的な気候モデルは、大気、陸、海、氷の相互作用を記述する数百万行のコードで非常に複雑である。
私たちの研究は、木に基づくアルゴリズムやディープニューラルネットワークのような確率論的手法を使って、高次元および人為的なデータの統計的に厳密な適合性テストを行います。
論文 参考訳(メタデータ) (2020-10-08T15:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。