論文の概要: TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation
- arxiv url: http://arxiv.org/abs/2510.21391v1
- Date: Fri, 24 Oct 2025 12:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.463267
- Title: TerraGen: A Unified Multi-Task Layout Generation Framework for Remote Sensing Data Augmentation
- Title(参考訳): TerraGen: リモートセンシングデータ拡張のための統合マルチタスクレイアウト生成フレームワーク
- Authors: Datao Tang, Hao Wang, Yudeng Xin, Hui Qiao, Dongsheng Jiang, Yin Li, Zhiheng Yu, Xiangyong Cao,
- Abstract要約: 現在の生成データ拡張フレームワークはタスク分離されており、各ビジョンタスクは独立した生成モデルをトレーニングする必要がある。
リモートセンシング画像のフレキシブルかつ空間的に制御可能な合成を可能にする統合レイアウト・画像生成フレームワークである textbfTerraGen を提案する。
- 参考スコア(独自算出の注目度): 20.17595840637294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing vision tasks require extensive labeled data across multiple, interconnected domains. However, current generative data augmentation frameworks are task-isolated, i.e., each vision task requires training an independent generative model, and ignores the modeling of geographical information and spatial constraints. To address these issues, we propose \textbf{TerraGen}, a unified layout-to-image generation framework that enables flexible, spatially controllable synthesis of remote sensing imagery for various high-level vision tasks, e.g., detection, segmentation, and extraction. Specifically, TerraGen introduces a geographic-spatial layout encoder that unifies bounding box and segmentation mask inputs, combined with a multi-scale injection scheme and mask-weighted loss to explicitly encode spatial constraints, from global structures to fine details. Also, we construct the first large-scale multi-task remote sensing layout generation dataset containing 45k images and establish a standardized evaluation protocol for this task. Experimental results show that our TerraGen can achieve the best generation image quality across diverse tasks. Additionally, TerraGen can be used as a universal data-augmentation generator, enhancing downstream task performance significantly and demonstrating robust cross-task generalisation in both full-data and few-shot scenarios.
- Abstract(参考訳): リモートセンシングビジョンタスクは、複数の相互接続されたドメインにまたがる広範なラベル付きデータを必要とする。
しかしながら、現在の生成データ拡張フレームワークはタスク分離されており、例えば、各視覚タスクは独立した生成モデルのトレーニングを必要とし、地理的情報や空間的制約のモデリングを無視する。
これらの課題に対処するために,高次視覚タスク(例えば,検出,セグメンテーション,抽出など)に対して,フレキシブルかつ空間的に制御可能なリモートセンシング画像の合成を可能にする,一元的なレイアウト・画像生成フレームワークである‘textbf{TerraGen}’を提案する。
特に、TerraGenは、境界ボックスとセグメンテーションマスク入力を統一する地理的空間レイアウトエンコーダを導入し、マルチスケールインジェクションスキームとマスク重み付き損失を組み合わせて、グローバル構造から細部まで空間制約を明示的にエンコードする。
また,45k画像を含む最初の大規模マルチタスクリモートセンシングレイアウト生成データセットを構築し,標準化された評価プロトコルを構築した。
実験結果から,TerraGenは多様なタスクにまたがる最高の画像品質を実現することができることがわかった。
さらに、TerraGenは、普遍的なデータ拡張ジェネレータとして使用することができ、ダウンストリームタスクのパフォーマンスを大幅に向上し、フルデータと少数ショットの両方のシナリオで堅牢なクロスタスクの一般化を実証することができる。
関連論文リスト
- DescribeEarth: Describe Anything for Remote Sensing Images [56.04533626223295]
リモートセンシングのためのオブジェクトレベルのきめ細かい画像キャプションのための新しいタスクであるGeo-DLCを提案する。
このタスクを支援するために,オブジェクト属性,関係,コンテキストを詳細に記述した大規模データセットであるDE-Datasetを構築した。
また,Geo-DLC用に設計されたマルチモーダル大規模言語モデルアーキテクチャであるDescribeEarthを提案する。
論文 参考訳(メタデータ) (2025-09-30T01:53:34Z) - A Large-Scale Referring Remote Sensing Image Segmentation Dataset and Benchmark [8.707197692292292]
これまでで最も大きく多様なRRSISデータセットであるNWPU-Referを導入し、49,745個の注釈付きターゲットを持つ30か国にまたがる15,003個の高解像度画像(1024-2048px)を含む。
また、RRSISのユニークな要求に対応する新しいフレームワークであるMulti-scale Referring Network (MRSNet)を提案する。
論文 参考訳(メタデータ) (2025-06-04T05:26:51Z) - EarthView: A Large Scale Remote Sensing Dataset for Self-Supervision [72.84868704100595]
本稿では,地球モニタリングタスクにおける深層学習アプリケーションを強化することを目的とした,リモートセンシングデータの自己監督を目的としたデータセットを提案する。
このデータセットは15テラピクセルのグローバルリモートセンシングデータにまたがっており、NEON、Sentinel、Satellogicによる1mの空間解像度データの新たなリリースなど、さまざまなソースの画像を組み合わせている。
このデータセットは、リモートセンシングデータの異なる課題に取り組むために開発されたMasked Autoencoderである。
論文 参考訳(メタデータ) (2025-01-14T13:42:22Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Feature Aggregation Network for Building Extraction from High-resolution
Remote Sensing Images [1.7623838912231695]
高解像度衛星リモートセンシングデータ取得は、表面構造的特徴の詳細な抽出の可能性を明らかにした。
現在の手法は、表面特徴の局所化情報にのみ焦点をあてている。
本稿では,グローバル機能とローカル機能の両方を抽出する機能集約ネットワーク(FANet)を提案する。
論文 参考訳(メタデータ) (2023-09-12T07:31:51Z) - Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs [0.0]
画素レベル条件 (PLC) と特徴レベル条件 (FLC) を同時に条件付きで合成する条件生成モデル VAE-Info-cGAN を提案する。
提案モデルでは,道路網の時間的表現のみを条件に,異なる地理的位置をまたいだ様々な形態のマクロアグリゲーションを高精度に生成することができる。
論文 参考訳(メタデータ) (2021-09-11T06:58:19Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。