論文の概要: Remote Sensing-Oriented World Model
- arxiv url: http://arxiv.org/abs/2509.17808v2
- Date: Sat, 27 Sep 2025 15:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.572818
- Title: Remote Sensing-Oriented World Model
- Title(参考訳): リモートセンシング指向世界モデル
- Authors: Yuxi Lu, Biao Wu, Zhidong Li, Kunqi Li, Chenya Huang, Huacan Wang, Qizhen Lan, Ronghao Chen, Ling Chen, Bin Liang,
- Abstract要約: 世界モデルは、直接観測を超えた世界状態の予測と推論によって、人工知能のポテンシャルを示してきた。
既存のアプローチは、主に合成環境や制約されたシーン設定で評価される。
本稿では、リモートセンシングにおける世界モデリングのための最初のフレームワークを導入することにより、これらのギャップを埋める。
- 参考スコア(独自算出の注目度): 14.021235530589246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have shown potential in artificial intelligence by predicting and reasoning about world states beyond direct observations. However, existing approaches are predominantly evaluated in synthetic environments or constrained scene settings, limiting their validation in real-world contexts with broad spatial coverage and complex semantics. Meanwhile, remote sensing applications urgently require spatial reasoning capabilities for disaster response and urban planning. This paper bridges these gaps by introducing the first framework for world modeling in remote sensing. We formulate remote sensing world modeling as direction-conditioned spatial extrapolation, where models generate semantically consistent adjacent image tiles given a central observation and directional instruction. To enable rigorous evaluation, we develop RSWISE (Remote Sensing World-Image Spatial Evaluation), a benchmark containing 1,600 evaluation tasks across four scenarios: general, flood, urban, and rural. RSWISE combines visual fidelity assessment with instruction compliance evaluation using GPT-4o as a semantic judge, ensuring models genuinely perform spatial reasoning rather than simple replication. Afterwards, we present RemoteBAGEL, a unified multimodal model fine-tuned on remote sensing data for spatial extrapolation tasks. Extensive experiments demonstrate that RemoteBAGEL consistently outperforms state-of-the-art baselines on RSWISE.
- Abstract(参考訳): 世界モデルは、直接観測を超えた世界状態の予測と推論によって、人工知能のポテンシャルを示してきた。
しかし、既存のアプローチは、主に合成環境や制約されたシーン設定で評価され、広い空間カバレッジと複雑なセマンティクスを持つ現実世界のコンテキストでの検証が制限される。
一方,リモートセンシングアプリケーションは災害対応や都市計画に空間推論機能を必要とする。
本稿では、リモートセンシングにおける世界モデリングのための最初のフレームワークを導入することにより、これらのギャップを埋める。
リモートセンシングの世界モデリングを方向条件付き空間外挿法として定式化し、モデルが中心的な観察と方向指示を与えて、セマンティックに一貫した隣接画像タイルを生成する。
厳密な評価を可能にするため,一般,洪水,都市,農村の4つのシナリオにまたがる1,600件の評価タスクを含むRSWISE(Remote Sensing World- Image Spatial Evaluation)を作成した。
RSWISEは、視覚的忠実度評価と、GPT-4oを意味判断として用いた命令コンプライアンス評価を組み合わせることで、モデルが単純な複製ではなく、空間的推論を真に実行することを保証している。
その後、空間外挿作業のためのリモートセンシングデータに基づいて微調整された統合マルチモーダルモデルであるRemoteBAGELを提案する。
大規模な実験では、RemoteBAGELはRSWISEの最先端のベースラインを一貫して上回っている。
関連論文リスト
- Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。
その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。
この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-25T07:02:42Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Hearing Anywhere in Any Environment [33.566252963174556]
本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。
我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。
実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
論文 参考訳(メタデータ) (2025-04-14T22:37:52Z) - OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークである textbfOpenEarthSensing (OES) を紹介する。
OESには189のシーンとオブジェクトのカテゴリが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。
論文 参考訳(メタデータ) (2025-02-28T02:49:52Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。