論文の概要: Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models
- arxiv url: http://arxiv.org/abs/2510.04020v2
- Date: Thu, 09 Oct 2025 08:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.547159
- Title: Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models
- Title(参考訳): 計画としての時空間予測:生成的世界モデルを用いたモデルに基づく強化学習アプローチ
- Authors: Hao Wu, Yuan Gao, Xingjian Shi, Shuaipeng Li, Fan Xu, Fan Zhang, Zhihong Zhu, Weiyan Wang, Xiao Luo, Kun Wang, Xian Wu, Xiaomeng Huang,
- Abstract要約: 本研究では,モデルベース強化学習における新たなパラダイムであるSFP予測・アズ・プランニング(SFP)を提案する。
SFPは、多様な高時間将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しい世界モデルを構築している。
- 参考スコア(独自算出の注目度): 45.523937630646394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the dual challenges of inherent stochasticity and non-differentiable metrics in physical spatiotemporal forecasting, we propose Spatiotemporal Forecasting as Planning (SFP), a new paradigm grounded in Model-Based Reinforcement Learning. SFP constructs a novel Generative World Model to simulate diverse, high-fidelity future states, enabling an "imagination-based" environmental simulation. Within this framework, a base forecasting model acts as an agent, guided by a beam search-based planning algorithm that leverages non-differentiable domain metrics as reward signals to explore high-return future sequences. These identified high-reward candidates then serve as pseudo-labels to continuously optimize the agent's policy through iterative self-training, significantly reducing prediction error and demonstrating exceptional performance on critical domain metrics like capturing extreme events.
- Abstract(参考訳): 物理的時空間予測における固有確率性と微分不可能なメトリクスの二重課題に対処するため,モデルベース強化学習に基づく新しいパラダイムである時空間予測を計画(SFP)として提案する。
SFPは、多種多様な高忠実な将来の状態をシミュレートし、「想像に基づく」環境シミュレーションを可能にする新しいジェネレーティブ・ワールド・モデルを構築している。
このフレームワーク内では、ベース予測モデルがエージェントとして機能し、ビームサーチに基づく計画アルゴリズムによって導かれる。
これらの特定された上位候補は擬似ラベルとして機能し、反復的な自己学習を通じてエージェントのポリシーを継続的に最適化し、予測エラーを著しく低減し、極端なイベントをキャプチャするといった重要なドメインメトリクスにおける例外的なパフォーマンスを示す。
関連論文リスト
- ScenGAN: Attention-Intensive Generative Model for Uncertainty-Aware Renewable Scenario Forecasting [11.600987173982107]
本稿では,再生可能エネルギーとディープラーニングの領域における不確実性について考察する。
不確実性認識モデルは、再生可能シナリオ予測のために慎重に設計されている。
処理層における気象情報、予報、歴史的軌跡の統合により、相乗的予測能力が向上する。
論文 参考訳(メタデータ) (2025-09-21T15:18:51Z) - Adaptive Conformal Prediction Intervals Over Trajectory Ensembles [50.31074512684758]
将来の軌道は、自律運転、ハリケーン予測、疫病モデルといった領域で重要な役割を果たしている。
本稿では,サンプル軌道を理論的カバレッジ保証付き校正された予測区間に変換する共形予測に基づく統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-18T21:14:07Z) - Deep Active Inference Agents for Delayed and Long-Horizon Environments [1.693200946453174]
AIFエージェントは、遅れた環境で悪化する制限である正確な即時予測と徹底的な計画に依存している。
本稿では,複数段階の遅延遷移を特徴とする生成型政治アーキテクチャを提案する。
我々は,遅延と長期化の設定で現実的な産業シナリオを模倣した環境におけるエージェントの評価を行った。
論文 参考訳(メタデータ) (2025-05-26T11:50:22Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - GPT-ST: Generative Pre-Training of Spatio-Temporal Graph Neural Networks [24.323017830938394]
この作業は、ベースラインとシームレスに統合し、パフォーマンスを向上する事前トレーニングフレームワークを導入することで、課題に対処することを目的としている。
フレームワークは2つの重要な設計に基づいて構築されている。
Apple-to-appleマスクオートエンコーダは、学習時間依存のための事前トレーニングモデルである。
これらのモジュールは、時間内カスタマイズされた表現とセマンティック・クラスタ間関係を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-11-07T02:36:24Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。