論文の概要: CyPortQA: Benchmarking Multimodal Large Language Models for Cyclone Preparedness in Port Operation
- arxiv url: http://arxiv.org/abs/2508.15846v1
- Date: Tue, 19 Aug 2025 21:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.115047
- Title: CyPortQA: Benchmarking Multimodal Large Language Models for Cyclone Preparedness in Port Operation
- Title(参考訳): CyPortQA: マルチモーダル大言語モデルの港湾運用におけるサイクロン準備性ベンチマーク
- Authors: Chenchen Kuai, Chenhao Wu, Yang Zhou, Xiubin Bruce Wang, Tianbao Yang, Zhengzhong Tu, Zihao Li, Yunlong Zhang,
- Abstract要約: ポートオペレーターは、確率的風力マップのような多様な予測生成物を、サイクロンアプローチとして明確で実用的なガイダンスに迅速に合成する必要がある。
我々は、サイクロン脅威下でのポート操作に適した最初のマルチモーダルベンチマークであるCyPortQAを紹介する。
CyPortQAは2015年から2023年にかけて、アメリカの主要港145か所と90の嵐を含む2,917の現実世界の破壊シナリオを組み立てている。
- 参考スコア(独自算出の注目度): 50.2938859756212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As tropical cyclones intensify and track forecasts become increasingly uncertain, U.S. ports face heightened supply-chain risk under extreme weather conditions. Port operators need to rapidly synthesize diverse multimodal forecast products, such as probabilistic wind maps, track cones, and official advisories, into clear, actionable guidance as cyclones approach. Multimodal large language models (MLLMs) offer a powerful means to integrate these heterogeneous data sources alongside broader contextual knowledge, yet their accuracy and reliability in the specific context of port cyclone preparedness have not been rigorously evaluated. To fill this gap, we introduce CyPortQA, the first multimodal benchmark tailored to port operations under cyclone threat. CyPortQA assembles 2,917 realworld disruption scenarios from 2015 through 2023, spanning 145 U.S. principal ports and 90 named storms. Each scenario fuses multisource data (i.e., tropical cyclone products, port operational impact records, and port condition bulletins) and is expanded through an automated pipeline into 117,178 structured question answer pairs. Using this benchmark, we conduct extensive experiments on diverse MLLMs, including both open-source and proprietary model. MLLMs demonstrate great potential in situation understanding but still face considerable challenges in reasoning tasks, including potential impact estimation and decision reasoning.
- Abstract(参考訳): 熱帯のサイクロンが増加し、トラック予測がますます不確実になるにつれて、米国港は極端な気象条件下でサプライチェーンリスクが高まる。
ポートオペレーターは、確率的風速マップ、トラックコーン、公式アドバイザリーなどの多様なマルチモーダル予測製品を、サイクロンアプローチとして明確で実用的なガイダンスに迅速に合成する必要がある。
マルチモーダル大言語モデル(MLLM)は、これらの異種データソースをより広い文脈の知識とともに統合する強力な手段を提供するが、ポートサイクロン準備の特定の文脈における精度と信頼性は厳密に評価されていない。
このギャップを埋めるために、サイクロン脅威下でのポート操作に適した最初のマルチモーダルベンチマークであるCyPortQAを導入する。
CyPortQAは2015年から2023年にかけて、アメリカの主要港145か所と90の嵐を含む2,917の現実世界の破壊シナリオを組み立てている。
各シナリオはマルチソースデータ(トロピカルサイクロン製品、ポート運用上の影響記録、ポート条件の掲示板)を融合させ、自動パイプラインを通じて117,178個の構造化された質問応答ペアに拡張する。
このベンチマークを用いて、オープンソースモデルとプロプライエタリモデルの両方を含む多様なMLLMに関する広範な実験を行う。
MLLMは状況理解において大きな可能性を秘めているが、潜在的影響推定や意思決定推論など、推論タスクでは依然としてかなりの課題に直面している。
関連論文リスト
- MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - FLP-XR: Future Location Prediction on Extreme Scale Maritime Data in Real-time [0.8937169040399775]
本稿では,海上移動データを活用するモデルであるFLP-XRを紹介し,高精度な予測を行うロバストなフレームワークを構築する。
3つの実世界のAISデータセットを用いた大規模な実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-03-10T13:31:42Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Global Tropical Cyclone Intensity Forecasting with Multi-modal
Multi-scale Causal Autoregressive Model [22.715152977444742]
グローバル熱帯サイクロン強度自動回帰予測のためのマルチモーダル・マルチスケール因果自己回帰モデル(MSCAR)を提案する。
MSCARは、大域的なTC強度自己回帰予測のための因果関係と大規模マルチ時間データを組み合わせる。
本稿では,SETCD(Saturate and ERA5-based Tropical Cyclone dataset)について述べる。
論文 参考訳(メタデータ) (2024-02-16T15:26:33Z) - Residual Corrective Diffusion Modeling for Km-scale Atmospheric Downscaling [58.456404022536425]
気象・気候からの物理的危険予知技術の現状には、粗い解像度のグローバルな入力によって駆動される高価なkmスケールの数値シミュレーションが必要である。
ここでは、コスト効率のよい機械学習代替手段として、このようなグローバルな入力をkmスケールにダウンスケールするために、生成拡散アーキテクチャを探索する。
このモデルは、台湾上空の地域気象モデルから2kmのデータを予測するために訓練され、世界25kmの再解析に基づいている。
論文 参考訳(メタデータ) (2023-09-24T19:57:22Z) - Multiscale Causal Structure Learning [26.66862801441497]
本稿では,線形因果構造のロバスト性を推定する手法として,Multiscale-Causal Learning Structure (MS-CASTLE) を提案する。
我々は、コビッド19でMS-CASTLEが意味のある情報を抽出する方法について、世界的な株式リスクパンデミック市場を調査した。
私たちは、ブラジル、カナダ、イタリアといった、検討期間にリスクを負う株式市場を特定しました。
論文 参考訳(メタデータ) (2022-07-16T11:47:32Z) - MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory
Prediction [28.438787700968703]
条件付きMUSEは、現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。
我々は、新しい合成データセットであるPFSDと同様に、nuScenesとSDDベンチマークに関する包括的な実験を通してこれらのアサーションを実証する。
論文 参考訳(メタデータ) (2022-01-18T18:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。