論文の概要: S2SServiceBench: A Multimodal Benchmark for Last-Mile S2S Climate Services
- arxiv url: http://arxiv.org/abs/2602.14017v1
- Date: Sun, 15 Feb 2026 06:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.600575
- Title: S2SServiceBench: A Multimodal Benchmark for Last-Mile S2S Climate Services
- Title(参考訳): S2SServiceBench: 最後のS2S気候サービスのためのマルチモーダルベンチマーク
- Authors: Chenyue Li, Wen Deng, Zhuotao Sun, Mengxi Jin, Hanzhe Cui, Han Li, Shentong Li, Man Kit Yu, Ming Long Lai, Yuhao Yang, Mengqian Lu, Binhang Yuan,
- Abstract要約: S2S予測は、気候の弾力性と持続可能性のための決定クリティカルな数週間の計画窓を提供する上で重要な役割を担っている。
ボトルネックの増大は、科学的予測を信頼できる行動可能な気候サービスに変換することだ。
S2SServiceBenchは、運用型気候サービスシステムからラストマイルS2S気候サービスのためのマルチモーダルベンチマークである。
- 参考スコア(独自算出の注目度): 12.580362007997572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subseasonal-to-seasonal (S2S) forecasts play an essential role in providing a decision-critical weeks-to-months planning window for climate resilience and sustainability, yet a growing bottleneck is the last-mile gap: translating scientific forecasts into trusted, actionable climate services, requiring reliable multimodal understanding and decision-facing reasoning under uncertainty. Meanwhile, multimodal large language models (MLLMs) and corresponding agentic paradigms have made rapid progress in supporting various workflows, but it remains unclear whether they can reliably generate decision-making deliverables from operational service products (e.g., actionable signal comprehension, decision-making handoff, and decision analysis & planning) under uncertainty. We introduce S2SServiceBench, a multimodal benchmark for last-mile S2S climate services curated from an operational climate-service system to evaluate this capability. S2SServiceBenchcovers 10 service products with about 150+ expert-selected cases in total, spanning six application domains - Agriculture, Disasters, Energy, Finance, Health, and Shipping. Each case is instantiated at three service levels, yielding around 500 tasks and 1,000+ evaluation items across climate resilience and sustainability applications. Using S2SServiceBench, we benchmark state-of-the-art MLLMs and agents, and analyze performance across products and service levels, revealing persistent challenges in S2S service plot understanding and reasoning - namely, actionable signal comprehension, operationalizing uncertainty into executable handoffs, and stable, evidence-grounded analysis and planning for dynamic hazards-while offering actionable guidance for building future climate-service agents.
- Abstract(参考訳): S2S(Subseasonal-to-seasonal)予測は、気候の弾力性と持続可能性のための決定クリティカルな数週間から月ごとの計画窓を提供する上で重要な役割を担います。
一方、MLLM(Multimodal large language model)およびそれに対応するエージェントパラダイムは、様々なワークフローをサポートするために急速に進歩してきたが、不確実性の下で運用サービス製品(例えば、行動可能な信号理解、意思決定ハンドオフ、意思決定分析と計画)から確実に意思決定成果物を生成することができるかどうかは不明である。
S2SServiceBenchは、運用型気候サービスシステムからキュレートされた最終マイルS2S気候サービスのマルチモーダルベンチマークで、この機能を評価する。
S2SServiceBenchcoversは、約150以上の専門家が選択したケースを持つ10のサービスプロダクトをカバーし、農業、災害、エネルギー、ファイナンス、健康、海運の6つのアプリケーションドメインにまたがる。
各ケースは3つのサービスレベルでインスタンス化され、約500のタスクと1,000以上の評価項目が、気候の回復力と持続可能性のアプリケーションにまたがる。
S2SServiceBenchを使用して、最先端のMLLMとエージェントをベンチマークし、製品とサービスレベルのパフォーマンスを分析し、S2Sサービスプロットの理解と推論における永続的な課題を明らかにする。
関連論文リスト
- EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies [61.267836443398124]
対話型経済における継続的計画・実行意思決定のためのベンチマークであるEcoGymを紹介する。
EcoGymは、透明性のある長期的なエージェント評価のためのオープンなテストベッドとしてリリースされ、現実的な経済環境下でのコントロール可能性とユーティリティのトレードオフを研究するためのものだ。
論文 参考訳(メタデータ) (2026-02-10T08:12:23Z) - The Lifecycle Workbench - A Configurable Framework for Digitized Product Maintenance Services [1.5650014668866705]
世界の電気製品生産は史上最高水準であり、環境と健康に悪影響を及ぼしている。
気候変動の悪化を考えると、現在の産業プロセスの変遷が必要である。
循環経済(CE)のような社会経済システムは、世界規模で資源や製品の使用を再配置する選択肢を提供する。
論文 参考訳(メタデータ) (2025-11-08T21:58:50Z) - Higher Satisfaction, Lower Cost: A Technical Report on How LLMs Revolutionize Meituan's Intelligent Interaction Systems [67.18731675163589]
本稿では,産業アプリケーションに適したインテリジェントインタラクションシステムであるWOWServiceを紹介する。
LLMとマルチエージェントアーキテクチャの統合により、WOWServiceは自律的なタスク管理と協調的な問題解決を可能にします。
WOWServiceはMeituan App上にデプロイされ、主要なメトリクスの大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-10-15T08:35:51Z) - SEER: Sustainability Enhanced Engineering of Software Requirements [3.8168092489216385]
初期のソフトウェア開発フェーズにおける持続可能性に関する懸念に対処するフレームワークであるSEERを紹介します。
フレームワークは、(i)特定のソフトウェア製品に関連する持続可能性要件を一般的な分類学から特定し、(ii)特定されたSRに基づいて持続可能なシステム要件がどのように評価されているかを評価し、(iii)いかなるSRも満たさないシステム要件を最適化する。
Gemini 2.5推論モデルを用いて得られた結果は、様々な領域にわたる幅広いサステナビリティの懸念を正確に識別する上で、提案手法の有効性を示すものである。
論文 参考訳(メタデータ) (2025-10-10T03:48:30Z) - Agentic Services Computing [51.50424046053763]
本稿では,自律的,適応的,協調的なエージェントとしてサービスを再定義するパラダイムであるエージェントサービスコンピューティングを提案する。
ASCは、設計、デプロイ、運用、進化という4段階のライフサイクルを包含しています。
論文 参考訳(メタデータ) (2025-09-29T07:29:18Z) - DiffScale: Continuous Downscaling and Bias Correction of Subseasonal Wind Speed Forecasts using Diffusion Models [0.27104259437944106]
季節的・季節的な予測(S2S)は、エネルギーセクターに重大な社会経済的優位性をもたらす可能性がある。
DiffScaleは連続的なダウンスケール要因やリードタイムの空間情報を超解する拡散モデルである。
予測品質が大幅に向上し,ベースラインが最大3.5%向上した。
論文 参考訳(メタデータ) (2025-03-31T09:44:28Z) - Service Level Agreements and Security SLA: A Comprehensive Survey [51.000851088730684]
本調査では,SLA管理のコンセプト,アプローチ,オープンな課題を網羅する技術の現状を明らかにする。
これは、既存の調査で提案された分析と、このトピックに関する最新の文献とのギャップを包括的にレビューし、カバーすることで貢献する。
SLAライフサイクルの段階に基づく分析を組織化するための新しい分類基準を提案する。
論文 参考訳(メタデータ) (2024-01-31T12:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。