論文の概要: Toward a Scientific Discovery Engine for Weather and Climate Data: A Visual Analytics Workbench for Embedding-Based Exploration
- arxiv url: http://arxiv.org/abs/2605.00972v1
- Date: Fri, 01 May 2026 17:03:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.524571
- Title: Toward a Scientific Discovery Engine for Weather and Climate Data: A Visual Analytics Workbench for Embedding-Based Exploration
- Title(参考訳): 気象・気候データのための科学的発見エンジンを目指して : 埋め込み型探索のためのビジュアル分析ワークベンチ
- Authors: Nihanth W. Cherukuru, Matt Rehme, Kirsten J. Mayer, David John Gagne, John Schreck, John Clyne, Charlie Becker,
- Abstract要約: 地球系科学は、物理学に基づく地球系モデルからAIベースの気象・気候モデルまで、ますます大きくて高次元のデータセットを生み出している。
埋め込みに基づく表現は、類似検索やアナログ検索を通じてこれらのデータを検索できるようにするが、潜伏空間の最も近い隣人は、自動的に科学的に意味を持つものではない。
これらのステップ毎に、オープンソースのビジュアル分析ワークベンチを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Earth system science is producing increasingly large, high-dimensional datasets from physics based Earth system models to AI-based weather and climate models. Embedding-based representations can make these data searchable through similarity search and analog retrieval, but nearest neighbors in latent space are not automatically scientifically meaningful: it may reflect real weather structure, or preprocessing, geography, or model bias. Researchers therefore need ways to inspect how embeddings organize meteorological data, compare representation models, develop retrieval strategies, and verify results against physical evidence. We present an open-source visual analytics workbench for each of these steps. The system links embedding experiments to source data, metadata, spatial context, and model configurations, so latent-space results can be traced back to the physics. Users can explore latent spaces for different models, issue global or localized queries, and inspect analogs through familiar meteorological views. This enables a discovery workflow in which scientists characterize a phenomenon of interest in a well-understood dataset, identifying its signature in latent space, and then use that signature to probe larger, less-labeled archives or ensembles for similar events. We demonstrate the workbench through tropical-cyclone retrieval using ERA5-derived embeddings and IBTrACS metadata, and evaluate its out-of-core retrieval backend to show that large embedding collections can be searched beyond in-memory limits on commodity workstation hardware.
- Abstract(参考訳): 地球系科学は、物理学に基づく地球系モデルからAIベースの気象・気候モデルまで、ますます大きくて高次元のデータセットを生み出している。
埋め込みベースの表現は、類似した検索やアナログ検索を通じてこれらのデータを検索できるようにするが、潜伏空間の最も近い隣人は、自動的に科学的に意味を持つものではなく、実際の気象構造や前処理、地理、モデルバイアスを反映している可能性がある。
したがって、埋め込みが気象データをどう整理するかを調べ、表現モデルを比較し、検索戦略を開発し、物理的な証拠に対して結果を検証する方法が必要である。
これらのステップ毎に、オープンソースのビジュアル分析ワークベンチを提示する。
このシステムは、埋め込み実験をソースデータ、メタデータ、空間コンテキスト、モデル構成にリンクするので、遅延空間の結果は物理学に遡ることができる。
ユーザは、さまざまなモデルのための潜伏空間を探索し、グローバルまたはローカライズドクエリを発行し、よく知られた気象ビューを通じてアナログを検査することができる。
これにより、科学者がよく理解されたデータセットに対する関心の現象を特徴付け、潜在空間における署名を特定し、そのシグネチャを使用して、より大きな、ラベルの少ないアーカイブや同様のイベントのアンサンブルを探索する、という発見ワークフローが可能になる。
ERA5由来の埋め込みとIBTrACSメタデータを用いた熱帯性サイクロン検索によるワークベンチを実証し、そのアウト・オブ・コア検索バックエンドを評価し、コモディティワークステーションハードウェアのインメモリ限界を超えて大きな埋め込みコレクションを検索可能であることを示す。
関連論文リスト
- ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery [6.780086370528623]
我々は,地球科学データ発見を定式化した多段階推論型検索フレームワークであるtextbfReSearchを紹介した。
ReSearchは、語彙検索、セマンティック埋め込み、省略拡張、および統合アーキテクチャ内での大規模言語モデルの再配置を統合している。
実験によると、ReSearchはベースラインメソッドよりもリコールとランキングのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2026-01-20T17:27:12Z) - Zephyrus: An Agentic Framework for Weather Science [47.611521052984365]
気象学の基礎モデルは、大量の構造化された数値データと従来の天気予報システムより優れた性能で事前訓練されている。
大規模言語モデル(LLM)は、テキストの理解と生成に優れるが、高次元の気象データセットを推論することはできない。
気象学の新しいエージェント・フレームワークを構築することで、このギャップを埋める。
我々は、気象データセットを反復的に分析し、結果を観察し、会話フィードバックループを通じてアプローチを洗練するマルチターンLCMベースの気象エージェントであるZephyrusを設計する。
論文 参考訳(メタデータ) (2025-10-05T03:34:08Z) - TARDIS STRIDE: A Spatio-Temporal Road Image Dataset and World Model for Autonomy [44.85881816317044]
本研究では,360度パノラマ画像を相互接続した観測,状態,行動ノードに変換する方法を示す。
我々は、このデータセットをトランスフォーマーベースの生成ワールドモデルであるTARDISを介してベンチマークする。
我々は、制御可能な画像合成、命令追従、自律的自己制御、最先端のジオレファレンスなど、さまざまなエージェントタスクにおいて、堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-06-12T21:08:11Z) - Enabling High Data Throughput Reinforcement Learning on GPUs: A Domain Agnostic Framework for Data-Driven Scientific Research [90.91438597133211]
我々は、強化学習の適用において重要なシステムのボトルネックを克服するために設計されたフレームワークであるWarpSciを紹介する。
我々は、CPUとGPU間のデータ転送の必要性を排除し、数千のシミュレーションを同時実行可能にする。
論文 参考訳(メタデータ) (2024-08-01T21:38:09Z) - DIRESA, a distance-preserving nonlinear dimension reduction technique based on regularized autoencoders [0.0]
気象学では、過去のデータセットで類似した気象パターンやアナログを見つけることは、データの同化、予測、後処理に有用である。
本稿では,オートエンコーダ(AE)ニューラルネットワークを用いた次元削減手法を提案し,データセットを圧縮し,解釈可能な圧縮潜在空間で探索を行う。
距離規則化されたシームズ双対オートエンコーダ(DIRESA)アーキテクチャは、データセット内の非線形性を捕捉しながら、潜時空間における距離を保存するように設計されている。
論文 参考訳(メタデータ) (2024-04-28T20:54:57Z) - Federated Prompt Learning for Weather Foundation Models on Devices [37.88417074427373]
天気予報のためのデバイス上のインテリジェンスでは、ローカルなディープラーニングモデルを使用して、集中型クラウドコンピューティングなしで気象パターンを分析する。
本稿では,FedPoD(Federated Prompt Learning for Weather Foundation Models on Devices)を提案する。
FedPoDは、通信効率を維持しながら、高度にカスタマイズされたモデルを得ることができる。
論文 参考訳(メタデータ) (2023-05-23T16:59:20Z) - Multimodal Dataset from Harsh Sub-Terranean Environment with Aerosol
Particles for Frontier Exploration [55.41644538483948]
本稿では, エアロゾル粒子を用いた過酷で非構造的な地下環境からのマルチモーダルデータセットを提案する。
ロボットオペレーティング・システム(ROS)フォーマットのすべてのオンボードセンサーから、同期された生データ計測を含んでいる。
本研究の焦点は、時間的・空間的なデータの多様性を捉えることだけでなく、取得したデータに厳しい条件が及ぼす影響を示すことである。
論文 参考訳(メタデータ) (2023-04-27T20:21:18Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Gaze-based Object Detection in the Wild [23.923563888749108]
人間とロボットのコラボレーションでは、ロボットに新しい未知の物体を教えることが難しい。
視線データから対象物(対象物または対象物なし)を検出し、その境界ボックスパラメータを決定することができるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-29T15:10:17Z) - Latent Feature Representation via Unsupervised Learning for Pattern
Discovery in Massive Electron Microscopy Image Volumes [4.278591555984395]
特に,データセットにおける意味的類似性を捉える潜在表現を学ぶための教師なしのディープラーニングアプローチを提案する。
動物脳の比較的小さな部分でもテラバイトの画像を要求できるナノスケールの電子顕微鏡データに適用する手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:14:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。