論文の概要: WeatherArchive-Bench: Benchmarking Retrieval-Augmented Reasoning for Historical Weather Archives
- arxiv url: http://arxiv.org/abs/2510.05336v1
- Date: Mon, 06 Oct 2025 19:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.966527
- Title: WeatherArchive-Bench: Benchmarking Retrieval-Augmented Reasoning for Historical Weather Archives
- Title(参考訳): WeatherArchive-Bench: 歴史的気象アーカイブのための検索強化推論のベンチマーク
- Authors: Yongan Yu, Xianda Du, Qingchen Hu, Jiahao Liang, Jingwei Ni, Dan Qiang, Kaiyu Huang, Grant McKenzie, Renee Sieber, Fengran Mo,
- Abstract要約: 本研究では,歴史的気象アーカイブ上での検索拡張世代(RAG)システム評価のための最初のベンチマークであるWeatherArchive-Benchを紹介する。
WeatherArchive-Benchは2つのタスクで構成されている。WeatherArchive-Retrievalは100万以上のアーカイブニュースセグメントから歴史的に関連するパスを識別するシステムの能力を測定し、WeatherArchive-Assessmentは大規模言語モデルが極端な気象物語から社会的脆弱性とレジリエンス指標を分類できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 15.620758706846388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Historical archives on weather events are collections of enduring primary source records that offer rich, untapped narratives of how societies have experienced and responded to extreme weather events. These qualitative accounts provide insights into societal vulnerability and resilience that are largely absent from meteorological records, making them valuable for climate scientists to understand societal responses. However, their vast scale, noisy digitized quality, and archaic language make it difficult to transform them into structured knowledge for climate research. To address this challenge, we introduce WeatherArchive-Bench, the first benchmark for evaluating retrieval-augmented generation (RAG) systems on historical weather archives. WeatherArchive-Bench comprises two tasks: WeatherArchive-Retrieval, which measures a system's ability to locate historically relevant passages from over one million archival news segments, and WeatherArchive-Assessment, which evaluates whether Large Language Models (LLMs) can classify societal vulnerability and resilience indicators from extreme weather narratives. Extensive experiments across sparse, dense, and re-ranking retrievers, as well as a diverse set of LLMs, reveal that dense retrievers often fail on historical terminology, while LLMs frequently misinterpret vulnerability and resilience concepts. These findings highlight key limitations in reasoning about complex societal indicators and provide insights for designing more robust climate-focused RAG systems from archival contexts. The constructed dataset and evaluation framework are publicly available at https://anonymous.4open.science/r/WeatherArchive-Bench/.
- Abstract(参考訳): 気象イベントに関する歴史的記録は、社会が極端な気象イベントを経験し、どう反応したかについて、豊かで未解決の物語を提供する主要な情報源の記録のコレクションである。
これらの質的な説明は、気象記録からほとんど欠落している社会的脆弱性とレジリエンスに関する洞察を与え、気候科学者が社会反応を理解するのに価値がある。
しかし、その広大な規模、騒々しいデジタル化品質、そして古来の言語は、それらを気候研究のための構造化された知識に変えるのを困難にしている。
この課題に対処するために、歴史的気象アーカイブ上での検索強化世代(RAG)システム評価のための最初のベンチマークであるWeatherArchive-Benchを紹介する。
WeatherArchive-Benchは2つのタスクで構成されている。WeatherArchive-Retrievalは100万以上のアーカイブニュースセグメントから歴史的に関連するパスを識別するシステムの能力を測定し、WeatherArchive-Assessmentは大規模言語モデル(LLM)が極端な気象物語から社会的脆弱性とレジリエンス指標を分類できるかどうかを評価する。
スパース、密度、再分類されたレトリバーの広範な実験は、多種多様なLLMのセットと同様に、高密度レトリバーが歴史的用語でしばしば失敗する一方で、LLMは脆弱性やレジリエンスの概念を誤解することが多いことを明らかにしている。
これらの知見は、複雑な社会的指標の推論における重要な制限を強調し、考古学的文脈からより堅牢な気候に焦点を当てたRAGシステムを設計するための洞察を提供する。
構築されたデータセットと評価フレームワークはhttps://anonymous.4open.science/r/WeatherArchive-Bench/で公開されている。
関連論文リスト
- Zephyrus: An Agentic Framework for Weather Science [47.611521052984365]
気象学の基礎モデルは、大量の構造化された数値データと従来の天気予報システムより優れた性能で事前訓練されている。
大規模言語モデル(LLM)は、テキストの理解と生成に優れるが、高次元の気象データセットを推論することはできない。
気象学の新しいエージェント・フレームワークを構築することで、このギャップを埋める。
我々は、気象データセットを反復的に分析し、結果を観察し、会話フィードバックループを通じてアプローチを洗練するマルチターンLCMベースの気象エージェントであるZephyrusを設計する。
論文 参考訳(メタデータ) (2025-10-05T03:34:08Z) - Respecting Temporal-Causal Consistency: Entity-Event Knowledge Graphs for Retrieval-Augmented Generation [69.45495166424642]
我々は,物語文書における時間的,因果的,文字的整合性を理解するために,頑健で差別的なQAベンチマークを開発する。
次に、バイナリマッピングでリンクされたエンティティとイベントのサブグラフを分離したまま保持するデュアルグラフフレームワークであるEntity-Event RAG(E2RAG)を紹介します。
ChronoQA全体で、我々のアプローチは最先端の非構造化およびKGベースのRAGベースラインよりも優れており、因果一貫性クエリや文字整合性クエリが顕著である。
論文 参考訳(メタデータ) (2025-06-06T10:07:21Z) - WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models [3.9711303420034443]
WXImpactBenchは、大きな言語モデル(LLM)の破壊的な気象影響を評価するための最初のベンチマークである。
構築されたデータセットと評価フレームワークのコードは、社会が災害からの脆弱性を保護するのに役立つ。
論文 参考訳(メタデータ) (2025-05-26T17:23:29Z) - Adversarial Observations in Weather Forecasting [11.130455392128072]
我々は,GoogleのGenCastで使用されているような,自己回帰拡散モデルに対する新たな攻撃を示す。
この攻撃は、自然騒音と統計的に区別できない気象観測に微妙な摂動をもたらす。
以上の結果から,大規模破壊を招き,気象予報に対する一般の信頼を損なうおそれのある,重大なセキュリティリスクが浮き彫りになった。
論文 参考訳(メタデータ) (2025-04-22T14:38:13Z) - ClimateBench-M: A Multi-Modal Climate Data Benchmark with a Simple Generative Method [61.76389719956301]
我々は、ERA5の時系列気候データ、NOAAの極度の気象イベントデータ、NASAの衛星画像データを調整するマルチモーダル気候ベンチマークであるClimateBench-Mに貢献する。
また,各データモダリティの下では,天気予報,雷雨警報,作物の分断作業において,競争性能を向上できる簡易かつ強力な生成手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T02:22:23Z) - WeatherGFM: Learning A Weather Generalist Foundation Model via In-context Learning [69.82211470647349]
第1次一般気象基礎モデル(WeatherGFM)を紹介する。
気象理解タスクの幅広い範囲を統一的な方法で解決する。
我々のモデルは、天気予報、超解像、天気画像翻訳、後処理など、最大10の気象理解タスクを効果的に処理できる。
論文 参考訳(メタデータ) (2024-11-08T09:14:19Z) - Generating Fine-Grained Causality in Climate Time Series Data for Forecasting and Anomaly Detection [67.40407388422514]
我々は、TBN Granger Causalityという概念的微粒因果モデルを設計する。
次に, TBN Granger Causality を生成的に発見する TacSas という, エンドツーエンドの深部生成モデルを提案する。
気候予報のための気候指標ERA5と、極度気象警報のためのNOAAの極端気象基準でTacSasを試験する。
論文 参考訳(メタデータ) (2024-08-08T06:47:21Z) - WeatherQA: Can Multimodal Language Models Reason about Severe Weather? [45.43764278625153]
干し草、竜巻、雷雨などの激しい対流的な気象イベントは、しばしば急速に起こるが、大きな被害を招き、毎年何十億ドルもの費用がかかる。
このことは、気象学者や住民のリスクの高い地域での適切な準備のために、前もって厳しい天候の脅威を予知することの重要性を強調している。
我々は、気象パラメータの複雑な組み合わせを推論し、現実のシナリオで厳しい天候を予測するために、機械用に設計された最初のマルチモーダルデータセットであるWeatherQAを紹介する。
論文 参考訳(メタデータ) (2024-06-17T05:23:18Z) - Federated Prompt Learning for Weather Foundation Models on Devices [37.88417074427373]
天気予報のためのデバイス上のインテリジェンスでは、ローカルなディープラーニングモデルを使用して、集中型クラウドコンピューティングなしで気象パターンを分析する。
本稿では,FedPoD(Federated Prompt Learning for Weather Foundation Models on Devices)を提案する。
FedPoDは、通信効率を維持しながら、高度にカスタマイズされたモデルを得ることができる。
論文 参考訳(メタデータ) (2023-05-23T16:59:20Z) - Robustness of Object Detectors in Degrading Weather Conditions [7.91378990016322]
自律走行のための最先端の物体検出システムは、晴天条件下で有望な結果を達成する。
これらのシステムは、雨や霧、雪などの気象条件の悪化に対処する必要がある。
ほとんどのアプローチは、晴天のシーンのみからなるKITTIデータセットでのみ評価される。
論文 参考訳(メタデータ) (2021-06-16T13:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。