論文の概要: GeoDiT: Point-Conditioned Diffusion Transformer for Satellite Image Synthesis
- arxiv url: http://arxiv.org/abs/2603.02172v1
- Date: Mon, 02 Mar 2026 18:42:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.033124
- Title: GeoDiT: Point-Conditioned Diffusion Transformer for Satellite Image Synthesis
- Title(参考訳): GeoDiT:衛星画像合成のためのポイントコンディション拡散変換器
- Authors: Srikumar Sastry, Dan Cher, Brian Wei, Aayush Dhakal, Subash Khanal, Dev Gupta, Nathan Jacobs,
- Abstract要約: 我々は,テキストから衛星画像生成のための拡散変換器であるGeoDiTを紹介した。
実験により,GeoDiTは最先端のリモートセンシング生成モデルを超え,優れた生成性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 18.765684923247857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GeoDiT, a diffusion transformer designed for text-to-satellite image generation with point-based control. Existing controlled satellite image generative models often require pixel-level maps that are time-consuming to acquire, yet semantically limited. To address this limitation, we introduce a novel point-based conditioning framework that controls the generation process through the spatial location of the points and the textual description associated with each point, providing semantically rich control signals. This approach enables flexible, annotation-friendly, and computationally simple inference for satellite image generation. To this end, we introduce an adaptive local attention mechanism that effectively regularizes the attention scores based on the input point queries. We systematically evaluate various domain-specific design choices for training GeoDiT, including the selection of satellite image representation for alignment and geolocation representation for conditioning. Our experiments demonstrate that GeoDiT achieves impressive generation performance, surpassing the state-of-the-art remote sensing generative models.
- Abstract(参考訳): 我々は,テキストから衛星画像生成のための拡散変換器であるGeoDiTを紹介した。
既存の衛星画像生成モデルは、取得に時間がかかるが意味的に制限されたピクセルレベルのマップを必要とすることが多い。
この制限に対処するために,各点の空間的位置と各点に関連するテキスト記述を通して生成過程を制御し,意味的にリッチな制御信号を提供する,新たなポイントベースの条件付けフレームワークを導入する。
このアプローチにより、衛星画像生成のためのフレキシブルでアノテーションに優しく、計算学的にシンプルな推論が可能になる。
そこで本研究では,適応的な局所的注意機構を導入し,入力点クエリに基づいてアテンションスコアを効果的に調整する。
我々は,GeoDiTのトレーニングにおいて,アライメントのための衛星画像表現の選択やコンディショニングのための位置情報表現を含む,さまざまなドメイン固有の設計選択を体系的に評価した。
実験により,GeoDiTは最先端のリモートセンシング生成モデルを超え,優れた生成性能を発揮することが示された。
関連論文リスト
- GeoViS: Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding [23.253648429114236]
リモートセンシング視覚接地のためのプログレッシブ検索・推論フレームワークGeoViSを提案する。
我々はGeoViSが、主要な視覚的グラウンドリング指標を越えて既存の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-12-02T12:45:52Z) - Seeing the Unseen: Mask-Driven Positional Encoding and Strip-Convolution Context Modeling for Cross-View Object Geo-Localization [8.559240391514063]
クロスビューオブジェクトジオローカライゼーションは、クロスビューマッチングによる高精度オブジェクトローカライゼーションを可能にする。
既存の手法はキーポイントに基づく位置符号化に依存しており、オブジェクトの形状情報を無視しながら2次元座標のみをキャプチャする。
空間座標と物体シルエットの両方を捕捉するために分割マスクを利用するマスクベースの位置符号化方式を提案する。
EDGeoは、堅牢なクロスビューオブジェクトジオローカライズのためのエンドツーエンドフレームワークである。
論文 参考訳(メタデータ) (2025-10-23T06:07:07Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - SegDesicNet: Lightweight Semantic Segmentation in Remote Sensing with Geo-Coordinate Embeddings for Domain Adaptation [0.5461938536945723]
リモートセマンティックセマンティックセグメンテーションのための新しい教師なしドメイン適応手法を提案する。
提案するSegDesicNetモジュールは、単位球上に投影された座標のGRID位置符号化を遅らせ、ドメイン損失を得る。
我々のアルゴリズムは,人工ニューラルネットワークと物理世界の人間の理解とのモデリング格差を減らそうとしている。
論文 参考訳(メタデータ) (2025-03-11T11:01:18Z) - Geospecific View Generation -- Geometry-Context Aware High-resolution Ground View Inference from Satellite Views [5.146618378243241]
多視点衛星画像から弱い幾何学やテクスチャを最大限に尊重するジオ特殊ビューを生成するための新しいパイプラインを提案する。
本手法は,衛星画像からの包括的情報を用いて,位置の地上画像を直接予測する。
我々のパイプラインは、衛星画像のみに基づいて、実物に近い地上ビューを初めて生成したものであることを実証する。
論文 参考訳(メタデータ) (2024-07-10T21:51:50Z) - Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching [60.645802236700035]
自然言語コマンドを通じてドローンをナビゲートすることは、アクセス可能なマルチモーダルデータセットが不足しているため、依然として難しい。
我々は新しい自然言語誘導ジオローカライゼーションベンチマークGeoText-1652を紹介する。
このデータセットは、インタラクティブなヒューマンコンピュータプロセスを通じて体系的に構築される。
論文 参考訳(メタデータ) (2023-11-21T17:52:30Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - On the Generation of a Synthetic Event-Based Vision Dataset for
Navigation and Landing [69.34740063574921]
本稿では,最適な着陸軌道からイベントベースの視覚データセットを生成する手法を提案する。
我々は,惑星と小惑星の自然シーン生成ユーティリティを用いて,月面のフォトリアリスティックな画像のシーケンスを構築した。
パイプラインは500トラジェクトリのデータセットを構築することで,表面特徴の現実的なイベントベース表現を生成することができることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:14:20Z) - DCN-T: Dual Context Network with Transformer for Hyperspectral Image
Classification [109.09061514799413]
複雑な撮像条件による空間変動のため,HSI分類は困難である。
本稿では,HSIを高品質な三スペクトル画像に変換する三スペクトル画像生成パイプラインを提案する。
提案手法は,HSI分類における最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-19T18:32:52Z) - Accurate 3-DoF Camera Geo-Localization via Ground-to-Satellite Image
Matching [102.39635336450262]
地上で取得したクエリ画像とジオタグ付き衛星画像の大規模データベースとをマッチングすることにより、地上から衛星画像のジオローカライズの問題に対処する。
我々の新しい手法は、衛星画像のピクセルサイズの精度まで、クエリー画像のきめ細かい位置を達成できる。
論文 参考訳(メタデータ) (2022-03-26T20:10:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。