論文の概要: WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20249v1
- Date: Mon, 26 May 2025 17:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.136339
- Title: WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models
- Title(参考訳): WXImpactBench: 大規模言語モデル評価のための破壊的な気象影響理解ベンチマーク
- Authors: Yongan Yu, Qingchen Hu, Xianda Du, Jiayin Wang, Fengran Mo, Renee Sieber,
- Abstract要約: WXImpactBenchは、大きな言語モデル(LLM)の破壊的な気象影響を評価するための最初のベンチマークである。
構築されたデータセットと評価フレームワークのコードは、社会が災害からの脆弱性を保護するのに役立つ。
- 参考スコア(独自算出の注目度): 3.9711303420034443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Climate change adaptation requires the understanding of disruptive weather impacts on society, where large language models (LLMs) might be applicable. However, their effectiveness is under-explored due to the difficulty of high-quality corpus collection and the lack of available benchmarks. The climate-related events stored in regional newspapers record how communities adapted and recovered from disasters. However, the processing of the original corpus is non-trivial. In this study, we first develop a disruptive weather impact dataset with a four-stage well-crafted construction pipeline. Then, we propose WXImpactBench, the first benchmark for evaluating the capacity of LLMs on disruptive weather impacts. The benchmark involves two evaluation tasks, multi-label classification and ranking-based question answering. Extensive experiments on evaluating a set of LLMs provide first-hand analysis of the challenges in developing disruptive weather impact understanding and climate change adaptation systems. The constructed dataset and the code for the evaluation framework are available to help society protect against vulnerabilities from disasters.
- Abstract(参考訳): 気候変動の適応には、大きな言語モデル(LLM)が適用可能な社会に対する破壊的な気象の影響を理解する必要がある。
しかし、それらの効果は、高品質なコーパスコレクションの難しさと利用可能なベンチマークの欠如により、あまり探索されていない。
地域新聞に保管されている気候に関する出来事は、地域社会が災害からどのように適応し、回復したかを記録している。
しかし、元のコーパスの処理は簡単ではない。
本研究では,まず,4段階の良好な建設パイプラインを用いた破壊的気象影響データセットを開発する。
そこで本研究では,気象の破壊的影響についてLLMの容量を評価するための最初のベンチマークであるWXImpactBenchを提案する。
ベンチマークには、マルチラベル分類とランキングベースの質問応答の2つの評価タスクが含まれている。
LLMの集合を評価するための大規模な実験は、破壊的な気象影響の理解と気候変動適応システムを開発する上での課題を、直接的に分析する。
構築されたデータセットと評価フレームワークのコードは、社会が災害からの脆弱性を保護するのに役立つ。
関連論文リスト
- Climate-Eval: A Comprehensive Benchmark for NLP Tasks Related to Climate Change [2.8680187920555635]
Climate-Evalは、既存のデータセットと、新たに開発されたニュース分類データセットを集約する。
この結果、13のデータセットに基づいた25のタスクのベンチマークが、気候談話の重要な側面をカバーしている。
論文 参考訳(メタデータ) (2025-05-24T11:45:46Z) - Interpretable Dual-Stream Learning for Local Wind Hazard Prediction in Vulnerable Communities [1.9299285312415735]
竜巻や直線風などの風害は、アメリカ合衆国グレートプレーンズの脆弱な地域社会にしばしば影響を及ぼす。
既存の予測システムは、主に気象要素に焦点を当てており、しばしばコミュニティ固有の脆弱性を捉えない。
本稿では、構造化された数値気象データと構造化されていないテクスチャイベントの物語を統合する2重ストリーム学習フレームワークを提案する。
我々のアーキテクチャは、ランダムフォレストとRoBERTaベースのトランスフォーマーを後期核融合機構で組み合わせ、強靭で文脈に合った風害予測を可能にする。
論文 参考訳(メタデータ) (2025-05-20T15:46:02Z) - ClimateBench-M: A Multi-Modal Climate Data Benchmark with a Simple Generative Method [61.76389719956301]
我々は、ERA5の時系列気候データ、NOAAの極度の気象イベントデータ、NASAの衛星画像データを調整するマルチモーダル気候ベンチマークであるClimateBench-Mに貢献する。
また,各データモダリティの下では,天気予報,雷雨警報,作物の分断作業において,競争性能を向上できる簡易かつ強力な生成手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T02:22:23Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Rethinking Data Augmentation for Robust LiDAR Semantic Segmentation in Adverse Weather [21.040167521248772]
既存のLiDARセマンティックセグメンテーション手法は、悪天候下での性能低下に苦慮することが多い。
これまでの研究は、悪天候をシミュレートしたり、トレーニング中に普遍的なデータ拡張を採用することでこの問題に対処してきた。
本稿では,性能劣化の主な原因を特定するために,新たな戦略データ拡張手法を提案する。
提案手法はセマンティックKITTI-to-SemanticSTFベンチマークで39.5 mIoUを達成し,ベースラインを8.1%改善し,新たな最先端技術を確立した。
論文 参考訳(メタデータ) (2024-07-02T14:19:51Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - AB2CD: AI for Building Climate Damage Classification and Detection [0.0]
本研究では, 自然災害の文脈において, 建物の損傷評価を正確に行うための深層学習手法の実装について検討する。
我々は,低品質・騒音ラベルの影響を考慮しつつ,新たな災害・地域への一般化の課題に取り組む。
我々の研究結果は、気候変動によって引き起こされる極端気象事象の影響評価を強化するための高度なAIソリューションの可能性と限界を示している。
論文 参考訳(メタデータ) (2023-09-03T03:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。