論文の概要: AgentCaster: Reasoning-Guided Tornado Forecasting
- arxiv url: http://arxiv.org/abs/2510.03349v1
- Date: Thu, 02 Oct 2025 17:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.920178
- Title: AgentCaster: Reasoning-Guided Tornado Forecasting
- Title(参考訳): AgentCaster: 推論ガイド付き竜巻予測
- Authors: Michael Chen,
- Abstract要約: AgentCasterは、複雑な現実世界のタスクで大規模言語モデル(LLM)を評価するためのフレームワークである。
竜巻の発生が複数発生し,500件以上の竜巻報告を含む,様々な歴史的データを含む40日間にわたるモデル性能の評価を行った。
人間の専門家は、リスクの強度を幻覚し過大予測する強い傾向を示し、正確な地理的配置と闘い、複雑で動的に進化するシステムにおいて、時間的推論の低さを示す、最先端のモデルを大幅に上回る。
- 参考スコア(独自算出の注目度): 2.8271273825420606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing need to evaluate Large Language Models (LLMs) on complex, high-impact, real-world tasks to assess their true readiness as reasoning agents. To address this gap, we introduce AgentCaster, a contamination-free framework employing multimodal LLMs end-to-end for the challenging, long-horizon task of tornado forecasting. Within AgentCaster, models interpret heterogeneous spatiotemporal data from a high-resolution convection-allowing forecast archive. We assess model performance over a 40-day period featuring diverse historical data, spanning several major tornado outbreaks and including over 500 tornado reports. Each day, models query interactively from a pool of 3,625 forecast maps and 40,125 forecast soundings for a forecast horizon of 12-36 hours. Probabilistic tornado-risk polygon predictions are verified against ground truths derived from geometric comparisons across disjoint risk bands in projected coordinate space. To quantify accuracy, we propose domain-specific TornadoBench and TornadoHallucination metrics, with TornadoBench highly challenging for both LLMs and domain expert human forecasters. Notably, human experts significantly outperform state-of-the-art models, which demonstrate a strong tendency to hallucinate and overpredict risk intensity, struggle with precise geographic placement, and exhibit poor spatiotemporal reasoning in complex, dynamically evolving systems. AgentCaster aims to advance research on improving LLM agents for challenging reasoning tasks in critical domains.
- Abstract(参考訳): 推論エージェントとしての真の準備性を評価するために、複雑でインパクトの高い実世界のタスクにおいて、LLM(Large Language Models)を評価する必要性が高まっている。
このギャップに対処するために,マルチモーダルLLMを用いた汚染のないフレームワークであるAgentCasterを紹介した。
AgentCasterでは、高解像度の対流許容予測アーカイブから異種時空間データを解釈する。
竜巻の発生が複数発生し,500件以上の竜巻報告を含む,様々な歴史的データを含む40日間にわたるモデル性能の評価を行った。
毎日、3,625の予測マップと40,125の予測サウンドのプールから、12~36時間の予測水平線を対話的にクエリする。
確率論的竜巻リスク多角形予測は、射影座標空間における不随伴リスク帯間の幾何学的比較から導かれる基底真理に対して検証される。
精度を定量化するために、ドメイン固有のTornadoBenchとTornadoHallucinationメトリクスを提案し、LLMとドメインの専門家の予測には非常に困難である。
特に、人間の専門家は、リスク強度を幻覚し過大予測する強い傾向を示し、正確な地理的配置と闘い、複雑で動的に進化するシステムにおいて時空間的推論が不十分である、最先端のモデルよりも著しく優れている。
AgentCasterは、重要なドメインにおける推論タスクに挑戦するLLMエージェントの改善の研究を前進させることを目的としている。
関連論文リスト
- Inferring Thunderstorm Occurrence from Vertical Profiles of Convection-Permitting Simulations: Physical Insights from a Physical Deep Learning Model [0.0]
雷雨は激しい降水量、干ばつ、雷、強い風のために、社会と経済に大きな影響を及ぼす。
我々は,10の大気変数の垂直プロファイルから雷雨の発生確率を直接推定する深層ニューラルネットワークSALAMA 1Dを開発した。
論文 参考訳(メタデータ) (2024-09-30T08:40:28Z) - Generating Fine-Grained Causality in Climate Time Series Data for Forecasting and Anomaly Detection [67.40407388422514]
我々は、TBN Granger Causalityという概念的微粒因果モデルを設計する。
次に, TBN Granger Causality を生成的に発見する TacSas という, エンドツーエンドの深部生成モデルを提案する。
気候予報のための気候指標ERA5と、極度気象警報のためのNOAAの極端気象基準でTacSasを試験する。
論文 参考訳(メタデータ) (2024-08-08T06:47:21Z) - A Novel Hybrid Approach for Tornado Prediction in the United States: Kalman-Convolutional BiLSTM with Multi-Head Attention [9.51657235413336]
竜巻は最も激しい大気渦現象の1つであり、検出と予測に重大な課題を提起している。
地上観測やレーダーデータに大きく依存する従来の手法は、遠距離での精度の低下や偽陽性率の上昇といった問題によって制限されている。
本研究では,Multi-Radar Multi-Sensor(MRMS)システムからSeamless Hybrid Scan Reflectivityデータセットを用いて精度を向上させる。
Kalman-Convolutional BiLSTMとMulti-Head Attentionというハイブリッドモデルを導入し、動的状態推定を改善し、データ内の空間的および時間的依存関係をキャプチャする。
論文 参考訳(メタデータ) (2024-08-05T18:11:23Z) - WeatherQA: Can Multimodal Language Models Reason about Severe Weather? [45.43764278625153]
干し草、竜巻、雷雨などの激しい対流的な気象イベントは、しばしば急速に起こるが、大きな被害を招き、毎年何十億ドルもの費用がかかる。
このことは、気象学者や住民のリスクの高い地域での適切な準備のために、前もって厳しい天候の脅威を予知することの重要性を強調している。
我々は、気象パラメータの複雑な組み合わせを推論し、現実のシナリオで厳しい天候を予測するために、機械用に設計された最初のマルチモーダルデータセットであるWeatherQAを紹介する。
論文 参考訳(メタデータ) (2024-06-17T05:23:18Z) - Lightning-Fast Convective Outlooks: Predicting Severe Convective Environments with Global AI-based Weather Models [0.08271752505511926]
激しい対流嵐は最も危険な気象現象であり、正確な予測は影響を緩和する。
最近リリースされたAIベースの天気モデルスイートは、中距離の予測を数秒で生成する。
本稿では,再解析とECMWFの運用数値天気予報モデルISSに対して,対流パラメータを対象とした3つのAIモデルの予測能力を評価する。
論文 参考訳(メタデータ) (2024-06-13T07:46:03Z) - Learning Robust Precipitation Forecaster by Temporal Frame Interpolation [65.5045412005064]
本研究では,空間的不一致に対するレジリエンスを示す頑健な降水予測モデルを構築した。
提案手法は,textit4cast'23コンペティションの移行学習リーダーボードにおいて,textit1位を確保したモデルにおいて,予測精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-30T08:22:08Z) - Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling [58.456404022536425]
気象・気候からの物理的危険予知技術の現状には、粗い解像度のグローバルな入力によって駆動される高価なkmスケールの数値シミュレーションが必要である。
ここでは、コスト効率のよい機械学習代替手段として、このようなグローバルな入力をkmスケールにダウンスケールするために、生成拡散アーキテクチャを探索する。
このモデルは、台湾上空の地域気象モデルから2kmのデータを予測するために訓練され、世界25kmの再解析に基づいている。
論文 参考訳(メタデータ) (2023-09-24T19:57:22Z) - Long-term drought prediction using deep neural networks based on geospatial weather data [75.38539438000072]
農業計画や保険には1年前から予測される高品質の干ばつが不可欠だ。
私たちは、体系的なエンドツーエンドアプローチを採用するエンドツーエンドアプローチを導入することで、干ばつデータに取り組みます。
主な発見は、TransformerモデルであるEarthFormerが、正確な短期(最大6ヶ月)の予測を行う際の例外的なパフォーマンスである。
論文 参考訳(メタデータ) (2023-09-12T13:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。