論文の概要: Remote Sensing-Oriented World Model
- arxiv url: http://arxiv.org/abs/2509.17808v2
- Date: Sat, 27 Sep 2025 15:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.572818
- Title: Remote Sensing-Oriented World Model
- Title(参考訳): リモートセンシング指向世界モデル
- Authors: Yuxi Lu, Biao Wu, Zhidong Li, Kunqi Li, Chenya Huang, Huacan Wang, Qizhen Lan, Ronghao Chen, Ling Chen, Bin Liang,
- Abstract要約: 世界モデルは、直接観測を超えた世界状態の予測と推論によって、人工知能のポテンシャルを示してきた。
既存のアプローチは、主に合成環境や制約されたシーン設定で評価される。
本稿では、リモートセンシングにおける世界モデリングのための最初のフレームワークを導入することにより、これらのギャップを埋める。
- 参考スコア(独自算出の注目度): 14.021235530589246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have shown potential in artificial intelligence by predicting and reasoning about world states beyond direct observations. However, existing approaches are predominantly evaluated in synthetic environments or constrained scene settings, limiting their validation in real-world contexts with broad spatial coverage and complex semantics. Meanwhile, remote sensing applications urgently require spatial reasoning capabilities for disaster response and urban planning. This paper bridges these gaps by introducing the first framework for world modeling in remote sensing. We formulate remote sensing world modeling as direction-conditioned spatial extrapolation, where models generate semantically consistent adjacent image tiles given a central observation and directional instruction. To enable rigorous evaluation, we develop RSWISE (Remote Sensing World-Image Spatial Evaluation), a benchmark containing 1,600 evaluation tasks across four scenarios: general, flood, urban, and rural. RSWISE combines visual fidelity assessment with instruction compliance evaluation using GPT-4o as a semantic judge, ensuring models genuinely perform spatial reasoning rather than simple replication. Afterwards, we present RemoteBAGEL, a unified multimodal model fine-tuned on remote sensing data for spatial extrapolation tasks. Extensive experiments demonstrate that RemoteBAGEL consistently outperforms state-of-the-art baselines on RSWISE.
- Abstract(参考訳): 世界モデルは、直接観測を超えた世界状態の予測と推論によって、人工知能のポテンシャルを示してきた。
しかし、既存のアプローチは、主に合成環境や制約されたシーン設定で評価され、広い空間カバレッジと複雑なセマンティクスを持つ現実世界のコンテキストでの検証が制限される。
一方,リモートセンシングアプリケーションは災害対応や都市計画に空間推論機能を必要とする。
本稿では、リモートセンシングにおける世界モデリングのための最初のフレームワークを導入することにより、これらのギャップを埋める。
リモートセンシングの世界モデリングを方向条件付き空間外挿法として定式化し、モデルが中心的な観察と方向指示を与えて、セマンティックに一貫した隣接画像タイルを生成する。
厳密な評価を可能にするため,一般,洪水,都市,農村の4つのシナリオにまたがる1,600件の評価タスクを含むRSWISE(Remote Sensing World- Image Spatial Evaluation)を作成した。
RSWISEは、視覚的忠実度評価と、GPT-4oを意味判断として用いた命令コンプライアンス評価を組み合わせることで、モデルが単純な複製ではなく、空間的推論を真に実行することを保証している。
その後、空間外挿作業のためのリモートセンシングデータに基づいて微調整された統合マルチモーダルモデルであるRemoteBAGELを提案する。
大規模な実験では、RemoteBAGELはRSWISEの最先端のベースラインを一貫して上回っている。
関連論文リスト
- RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - SmallWorlds: Assessing Dynamics Understanding of World Models in Isolated Environments [15.243547292947397]
我々はSmallWorld Benchmarkを紹介した。これは、分離された、正確に制御された動的条件下での世界モデル能力を評価するために設計されたテストベッドである。
我々は、Recurrent State Space Model、Transformer、Diffusion Model、Neural ODEなどの代表的アーキテクチャ上で、完全に観測可能な状態空間で包括的な実験を行う。
実験結果から, これらのモデルが環境構造を効果的に把握し, ロールアウトによる予測がいかに悪化するかが明らかになった。
論文 参考訳(メタデータ) (2025-11-28T18:56:02Z) - IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation [56.43007596544299]
IndustryNavは、アクティブな空間推論のための最初の動的産業用ナビゲーションベンチマークである。
9つの最先端のVisual Large Language Modelsの研究によると、クローズドソースモデルは一貫した優位性を維持している。
論文 参考訳(メタデータ) (2025-11-21T16:48:49Z) - OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios [39.58602686069029]
OmniGroundは、81のカテゴリにまたがる3,475の動画と複雑な現実世界のクエリを備えた総合的なベンチマークである。
また、4つの相補的な次元にわたるデータセット品質を定量化するシステム評価フレームワークであるDeepSTGについても紹介する。
実験では、PG-TAFはm_tIoUとm_vIoUを25.6%、35.6%改善し、4つのベンチマークで一貫した利得を得た。
論文 参考訳(メタデータ) (2025-11-21T04:23:04Z) - FUSAR-KLIP: Towards Multimodal Foundation Models for Remote Sensing [16.948824707021412]
クロスモーダル人工知能は近年広く注目を集めており、自然画像の研究において大きな進歩を遂げている。
既存の手法は主にRGB画像用に設計されており、合成開口レーダ(SAR)画像のモデリングにおいて大きなギャップを残している。
本稿では,再利用可能なデータと評価ベースラインとともに,初の汎用SARマルチモーダル基盤モデルであるFUSAR-KLIPを提案する。
論文 参考訳(メタデータ) (2025-09-28T15:03:25Z) - Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition [0.0]
リモートセンシングと一般ビジョンデータセットに事前訓練された基礎モデルを効果的に組み合わせて性能を向上させることができるかを検討する。
その結果、より小さな事前訓練モデルの特徴レベルのアンサンブルは、はるかに大きなモデルの性能に適合するか、超える可能性があることがわかった。
この研究は、よりコンパクトなモデルにアンサンブルの強度を伝達するために知識蒸留を適用する可能性を強調している。
論文 参考訳(メタデータ) (2025-06-25T07:02:42Z) - TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation [65.74990259650984]
本研究では,グローバルに分散したSentinel-1とSentinel-2画像を利用する,スケーラブルな自己教師型学習モデルTerraFMを紹介する。
我々のトレーニング戦略は、局所的・言語的コントラスト学習を統合し、二重中心化機構を導入する。
TerraFMは分類タスクとセグメンテーションタスクの両方において強力な一般化を実現し、GEO-BenchとCopernicus-Benchの先行モデルよりも優れている。
論文 参考訳(メタデータ) (2025-06-06T17:59:50Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - Hearing Anywhere in Any Environment [33.566252963174556]
本稿では,クロスルームルームインパルス応答(RIR)予測のためのフレームワークであるxRIRを提案する。
我々の一般化可能なアプローチの中核は、パノラマ深度画像から空間コンテキストをキャプチャする幾何学的特徴抽出器と、いくつかの参照RIRサンプルから詳細な音響特徴を抽出するRIRエンコーダを組み合わせることである。
実験により,本手法が一連のベースラインを強く上回ることを示すとともに,実世界の4つの環境におけるモデルの評価を行い,我々のアプローチの一般化可能性とデータセットの現実性を示した。
論文 参考訳(メタデータ) (2025-04-14T22:37:52Z) - OpenEarthSensing: Large-Scale Fine-Grained Benchmark for Open-World Remote Sensing [57.050679160659705]
オープンワールドリモートセンシングのための大規模きめ細かいベンチマークである textbfOpenEarthSensing (OES) を紹介する。
OESには189のシーンとオブジェクトのカテゴリが含まれており、現実世界で起こりうる潜在的なセマンティックシフトの大部分をカバーしている。
論文 参考訳(メタデータ) (2025-02-28T02:49:52Z) - Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning [4.422649561583363]
言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
論文 参考訳(メタデータ) (2024-05-23T21:22:00Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。