論文の概要: EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation
- arxiv url: http://arxiv.org/abs/2504.19432v1
- Date: Mon, 28 Apr 2025 02:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.289661
- Title: EarthMapper: Visual Autoregressive Models for Controllable Bidirectional Satellite-Map Translation
- Title(参考訳): EarthMapper: 制御可能な双方向衛星地図翻訳のための視覚的自己回帰モデル
- Authors: Zhe Dong, Yuzhe Sun, Tianzhu Liu, Wangmeng Zuo, Yanfeng Gu,
- Abstract要約: 制御可能な衛星マップ翻訳のための新しいフレームワークであるEarthMapperを紹介する。
また,中国38都市を対象とした302,132組の衛星マップからなる大規模データセットであるCNSatMapをコントリビュートした。
CNSatMapとNew Yorkデータセットの実験は、EarthMapperの優れたパフォーマンスを実証している。
- 参考スコア(独自算出の注目度): 50.433911327489554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Satellite imagery and maps, as two fundamental data modalities in remote sensing, offer direct observations of the Earth's surface and human-interpretable geographic abstractions, respectively. The task of bidirectional translation between satellite images and maps (BSMT) holds significant potential for applications in urban planning and disaster response. However, this task presents two major challenges: first, the absence of precise pixel-wise alignment between the two modalities substantially complicates the translation process; second, it requires achieving both high-level abstraction of geographic features and high-quality visual synthesis, which further elevates the technical complexity. To address these limitations, we introduce EarthMapper, a novel autoregressive framework for controllable bidirectional satellite-map translation. EarthMapper employs geographic coordinate embeddings to anchor generation, ensuring region-specific adaptability, and leverages multi-scale feature alignment within a geo-conditioned joint scale autoregression (GJSA) process to unify bidirectional translation in a single training cycle. A semantic infusion (SI) mechanism is introduced to enhance feature-level consistency, while a key point adaptive guidance (KPAG) mechanism is proposed to dynamically balance diversity and precision during inference. We further contribute CNSatMap, a large-scale dataset comprising 302,132 precisely aligned satellite-map pairs across 38 Chinese cities, enabling robust benchmarking. Extensive experiments on CNSatMap and the New York dataset demonstrate EarthMapper's superior performance, achieving significant improvements in visual realism, semantic consistency, and structural fidelity over state-of-the-art methods. Additionally, EarthMapper excels in zero-shot tasks like in-painting, out-painting and coordinate-conditional generation, underscoring its versatility.
- Abstract(参考訳): 衛星画像と地図は、リモートセンシングにおける2つの基本的なデータモダリティとして、地球の表面と人間の解釈可能な地理的抽象化を直接観察する。
衛星画像と地図(BSMT)の双方向翻訳の課題は、都市計画や災害対応への応用において大きな可能性を秘めている。
しかし、この課題は2つの大きな課題を提起する: 第一に、2つのモード間の正確な画素のアライメントがないことは翻訳過程を著しく複雑にし、第二に、地理的特徴の高レベルな抽象化と高品質な視覚合成の両方を達成し、技術的複雑さをさらに高める必要がある。
これらの制約に対処するために、制御可能な双方向衛星マップ変換のための新しい自己回帰フレームワークであるEarthMapperを紹介する。
EarthMapperは、地理的座標埋め込みを使用して、領域固有の適応性を確保し、ジオコンディショニングされたジョイントスケールオートレグレス(GJSA)プロセス内のマルチスケール特徴アライメントを活用して、双方向翻訳を単一のトレーニングサイクルで統一する。
特徴レベルの整合性を高めるためにセマンティック・インフュージョン(SI)機構を導入し、推論時の多様性と精度を動的にバランスさせるキーポイント適応誘導(KPAG)機構を提案する。
CNSatMapは中国の38都市にまたがる302,132の正確な衛星マップからなる大規模なデータセットであり、堅牢なベンチマークを可能にする。
CNSatMapとNew Yorkデータセットに関する大規模な実験は、EarthMapperの優れたパフォーマンスを示し、最先端の手法よりも視覚リアリズム、セマンティック一貫性、構造的忠実性を大幅に改善した。
さらに、EarthMapperは、インペイント、アウトペイント、コーディネーションコンディショナリ生成といったゼロショットタスクに優れており、その汎用性を示している。
関連論文リスト
- Map Feature Perception Metric for Map Generation Quality Assessment and Loss Optimization [2.311323886036968]
本研究では,合成地図と対象地図のグローバルな特徴と空間的整合性を評価するために考案された新しいマップ特徴量について紹介する。
本手法は、地図構造的整合性とトポロジ的関係を包括的にエンコードする要素レベルの深い特徴を抽出する。
論文 参考訳(メタデータ) (2025-03-30T09:07:09Z) - AGL-NET: Aerial-Ground Cross-Modal Global Localization with Varying Scales [45.315661330785275]
我々は,LiDAR点雲と衛星地図を用いたグローバルローカライゼーションのための新しい学習手法であるAGL-NETを提案する。
我々は,特徴マッチングのための画像と点間の表現ギャップを埋めること,グローバルビューとローカルビューのスケールの相違に対処すること,という2つの重要な課題に取り組む。
論文 参考訳(メタデータ) (2024-04-04T04:12:30Z) - SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery [22.716322265391852]
衛星コントラスト位置画像事前学習(SatCLIP)について紹介する。
SatCLIPは、公開衛星画像のCNNとViTの視覚パターンを地理的座標と一致させることで、位置の暗黙的な表現を学習する。
実験では、温度予測、動物認識、人口密度推定を含む9つの異なる位置依存タスクにおいて、SatCLIP埋め込みを用いて予測性能を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:14:40Z) - Cross-City Matters: A Multimodal Remote Sensing Benchmark Dataset for
Cross-City Semantic Segmentation using High-Resolution Domain Adaptation
Networks [82.82866901799565]
我々は,都市間セマンティックセマンティックセグメンテーションタスクの研究を目的とした,新しいマルチモーダルリモートセンシングベンチマークデータセット(ハイパースペクトル,マルチスペクトル,SARを含む)を構築した。
単一都市に留まらず,多都市環境からAIモデルの一般化能力を促進するため,高解像度なドメイン適応ネットワークであるHighDANを提案する。
高DANは, 並列高分解能融合方式で, 都市景観の空間的トポロジカルな構造を良好に維持することができる。
論文 参考訳(メタデータ) (2023-09-26T23:55:39Z) - Geo-Encoder: A Chunk-Argument Bi-Encoder Framework for Chinese
Geographic Re-Ranking [61.60169764507917]
中国の地理的再ランクタスクは、検索された候補者の中で最も関連性の高い住所を見つけることを目的としている。
そこで我々は,中国語の地理的意味論をより効果的に統合する,革新的なフレームワークであるGeo-Encoderを提案する。
論文 参考訳(メタデータ) (2023-09-04T13:44:50Z) - View Consistent Purification for Accurate Cross-View Localization [59.48131378244399]
本稿では,屋外ロボットのための微細な自己局在化手法を提案する。
提案手法は,既存のクロスビューローカライゼーション手法の限界に対処する。
これは、動的環境における知覚を増強する初めての疎視のみの手法である。
論文 参考訳(メタデータ) (2023-08-16T02:51:52Z) - DETR Doesn't Need Multi-Scale or Locality Design [69.56292005230185]
本稿では,"プレーン"特性を維持できる改良型DETR検出器を提案する。
特定の局所性制約を伴わずに、単一スケールの機能マップとグローバルなクロスアテンション計算を使用する。
マルチスケールな特徴マップと局所性制約の欠如を補うために,2つの単純な技術が平易な設計において驚くほど効果的であることを示す。
論文 参考訳(メタデータ) (2023-08-03T17:59:04Z) - Co-visual pattern augmented generative transformer learning for
automobile geo-localization [12.449657263683337]
クロスビュージオローカライゼーション(CVGL)は、地上カメラの地理的位置を、巨大なジオタグ付き空中画像とマッチングすることによって推定することを目的としている。
CVGLのための相互生成型トランスフォーマー学習(MGTL)という,トランスフォーマーと組み合わせたクロスビュー知識生成技術を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T07:29:02Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。