論文の概要: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
- arxiv url: http://arxiv.org/abs/2603.14941v1
- Date: Mon, 16 Mar 2026 07:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.141157
- Title: RS-WorldModel: a Unified Model for Remote Sensing Understanding and Future Sense Forecasting
- Title(参考訳): RS-WorldModel: リモートセンシング理解と未来のセンス予測のための統一モデル
- Authors: Linrui Xu, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Ming Li, Haifeng Li,
- Abstract要約: 統一ワールドモデルであるRS-WorldModelは、すべての理解とテキスト誘導のシーン予測を処理する。
R-1.1Mは、両方のタスクをカバーするリッチ言語を備えた1100万のサンプルデータセットです。
RS-WorldModelは2Bパラメータしか持たないため、ほとんどの時間的変化に対する質問に対して最大120ドル以上の費用がかかる。
- 参考スコア(独自算出の注目度): 20.55654078017388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing world models aim to both explain observed changes and forecast plausible futures, two tasks that share spatiotemporal priors. Existing methods, however, typically address them separately, limiting cross-task transfer. We present RS-WorldModel, a unified world model for remote sensing that jointly handles spatiotemporal change understanding and text-guided future scene forecasting, and we build RSWBench-1.1M, a 1.1 million sample dataset with rich language annotations covering both tasks. RS-WorldModel is trained in three stages: (1) Geo-Aware Generative Pre-training (GAGP) conditions forecasting on geographic and acquisition metadata; (2) synergistic instruction tuning (SIT) jointly trains understanding and forecasting; (3) verifiable reinforcement optimization (VRO) refines outputs with verifiable, task-specific rewards. With only 2B parameters, RS-WorldModel surpasses open-source models up to 120$ \times $ larger on most spatiotemporal change question-answering metrics. It achieves an FID of 43.13 on text-guided future scene forecasting, outperforming all open-source baselines as well as the closed-source Gemini-2.5-Flash Image (Nano Banana).
- Abstract(参考訳): リモートセンシングの世界モデルは、観測された変化と、時空間前兆を共有する2つのタスクである予測可能な未来の両方を説明することを目的としている。
しかし、既存の方法は通常、それらを個別に扱い、クロスタスク転送を制限する。
我々は,時空間変化の理解とテキスト誘導による将来のシーン予測を共同で扱う,リモートセンシングのための統一世界モデルであるRS-WorldModelを提案し,両タスクをカバーするリッチ言語アノテーションを備えた1100万のサンプルデータセットであるRSWBench-1.1Mを構築した。
RS-WorldModel は,(1) 地理的・取得メタデータに基づくジオ・アウェア・ジェネレーティブ・プレトレーニング(GAGP)条件,(2) 相乗的指導チューニング(SIT) 協調列車の理解と予測,(3) 検証可能な強化最適化(VRO) の3段階で訓練される。
2Bパラメータだけで、RS-WorldModelは、ほとんどの時空間変化質問回答メトリクスで最大120$ \times$以上のオープンソースモデルを超えている。
テキスト誘導による将来の予測では43.13のFIDを達成し、すべてのオープンソースベースラインとクローズドソースのGemini-2.5-Flash Image(Nano Banana)を上回ります。
関連論文リスト
- GEO-Bench-2: From Performance to Capability, Rethinking Evaluation in Geospatial AI [52.13138825802668]
GeoFMは地球観測を変革しているが、評価には標準化されたプロトコルが欠けている。
GEO-Bench-2は、分類、セグメンテーション、回帰、オブジェクト検出、インスタンスセグメンテーションにまたがる包括的なフレームワークでこの問題に対処する。
GEO-Bench-2のコード、データ、およびリーダーボードは、パーミッシブライセンスの下で公開されている。
論文 参考訳(メタデータ) (2025-11-19T17:45:02Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model [14.996395953240699]
DOMEは拡散に基づく世界モデルであり、過去の占有観察に基づいて将来の占有枠を予測する。
この世界のモデルが環境の進化を捉える能力は、自動運転の計画に不可欠である。
論文 参考訳(メタデータ) (2024-10-14T12:24:32Z) - Variational Autoencoder Assisted Neural Network Likelihood RSRP
Prediction Model [2.881201648416745]
MDTデータとデジタルツイン(DT)を利用したRSRP予測のための生成モデルについて検討する。
実世界のデータを用いた提案モデルでは,実証モデルと比較して約20%以上の精度向上が示されている。
論文 参考訳(メタデータ) (2022-06-27T17:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。