論文の概要: GTPBD-MM: A Global Terraced Parcel and Boundary Dataset with Multi-Modality
- arxiv url: http://arxiv.org/abs/2604.12315v1
- Date: Tue, 14 Apr 2026 05:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.264645
- Title: GTPBD-MM: A Global Terraced Parcel and Boundary Dataset with Multi-Modality
- Title(参考訳): GTPBD-MM:マルチモーダルなグローバルなテラスパーセルと境界データセット
- Authors: Zhiwei Zhang, Xingyuan Zeng, Xinkai Kong, Kunquan Zhang, Haoyuan Liang, Bohan Shi, Juepeng Zheng, Jianxi Huang, Yutong Lu, Haohuan Fu,
- Abstract要約: GTPBD-MMは,グローバル・テラクテッド・パーセル抽出のための最初のマルチモーダル・ベンチマークである。
Elevation and Text guideed Terraced parcel network (ETTerra) をテラス化されたパーセルデラインのマルチモーダルベースラインとして提案する。
- 参考スコア(独自算出の注目度): 20.04256505039609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agricultural parcel extraction plays an important role in remote sensing-based agricultural monitoring, supporting parcel surveying, precision management, and ecological assessment. However, existing public benchmarks mainly focus on regular and relatively flat farmland scenes. In contrast, terraced parcels in mountainous regions exhibit stepped terrain, pronounced elevation variation, irregular boundaries, and strong cross-regional heterogeneity, making parcel extraction a more challenging problem that jointly requires visual recognition, semantic discrimination, and terrain-aware geometric understanding. Although recent studies have advanced visual parcel benchmarks and image-text farmland understanding, a unified benchmark for complex terraced parcel extraction under aligned image-text-DEM settings remains absent. To fill this gap, we present GTPBD-MM, the first multimodal benchmark for global terraced parcel extraction. Built upon GTPBD, GTPBD-MM integrates high-resolution optical imagery, structured text descriptions, and DEM data, and supports systematic evaluation under Image-only, Image+Text, and Image+Text+DEM settings. We further propose Elevation and Text guided Terraced parcel network (ETTerra), a multimodal baseline for terraced parcel delineation. Extensive experiments demonstrate that textual semantics and terrain geometry provide complementary cues beyond visual appearance alone, yielding more accurate, coherent, and structurally consistent delineation results in complex terraced scenes.
- Abstract(参考訳): 農業区画抽出は、リモートセンシングによる農業モニタリング、パーセル調査、精密管理、生態学的評価において重要な役割を担っている。
しかし、既存のベンチマークは主に平らで平らな農地のシーンに焦点を当てている。
対照的に、山岳地域の段丘は、段丘地形、顕著な標高変動、不規則な境界、強い地域間不均一性を示し、パーセル抽出は、視覚的認識、意味的識別、地形に見合った幾何学的理解を必要とする、より困難な問題である。
近年の研究では、高度なビジュアル・パーセル・ベンチマークと画像テキスト・ファームランド理解がなされているが、整列した画像テキスト・DEM設定下での複雑なテラクド・パーセル抽出のための統一されたベンチマークはいまだに存在しない。
このギャップを埋めるために,グローバル・テラクテッド・パーセル抽出のための最初のマルチモーダル・ベンチマークであるGTPBD-MMを提案する。
GTPBD-MMは、高解像度の光学画像、構造化されたテキスト記述、DEMデータを統合し、Image-only、Image+Text、Image+Text+DEM設定下での系統的な評価をサポートする。
Elevation and Text guideed Terraced parcel network (ETTerra) についても提案する。
広範な実験により、テキストのセマンティクスと地形幾何学は、視覚的な外観だけでなく、複雑なテラス化されたシーンにおいてより正確で、一貫性があり、構造的に一貫した記述をもたらす。
関連論文リスト
- TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation [71.39112735716172]
TerraScopeは、ピクセル地上の地理空間的推論を提供する統合視覚言語モデルである。
また,画素接地による空間的推論のための最初のベンチマークであるTerraScope-Benchを提案する。
論文 参考訳(メタデータ) (2026-03-19T15:38:02Z) - Universal Pansharpening Foundation Model [67.10467574892282]
高分解能マルチスペクトル(MS)画像は、テクスチャリッチパンクロマティック(PAN)画像と低分解能MS画像からのスペクトル特性から空間的詳細を統合することで生成する。
本稿では,衛星非依存およびシーンロバスト融合のための普遍的パンシャーピング基盤モデルFoundPSを提案する。
論文 参考訳(メタデータ) (2026-03-04T08:30:15Z) - Geodiffussr: Generative Terrain Texturing with Elevation Fidelity [48.82552523546255]
テキスト誘導テクスチャマップを合成するフローマッチングパイプラインであるGeodiffussrを紹介する。
マルチスケールコンテンツアグリゲーション(MCA): DEM機能は、複数の解像度でUNetブロックに注入され、グローバルからローカライズされた高度の一貫性が強制される。
Geodiffussrを訓練し,評価するために,SRTM由来のDEMとSentinel-2画像と視覚接地型自然出現キャプションを組み合わせた三重項のグローバル分布,バイオメ-および気候成層コーパスを組み立てた。
論文 参考訳(メタデータ) (2025-11-28T09:52:44Z) - GTPBD: A Fine-Grained Global Terraced Parcel and Boundary Dataset [16.659583314057013]
GTPBDは、ピクセルレベルのバウンダリラベル、マスクラベル、パーセルラベルを含む3レベルラベルを持つ47,537の高解像度画像で構成されている。
中国と大陸横断性気候圏の7つの主要地域をカバーしている。
GTPBDは、リモートセンシング研究において重要なギャップを埋め、きめ細かい農業地形解析のための基盤となる。
論文 参考訳(メタデータ) (2025-07-19T17:15:46Z) - EarthMind: Leveraging Cross-Sensor Data for Advanced Earth Observation Interpretation with a Unified Multimodal LLM [103.7537991413311]
地球観測(EO)データ分析は、環境と人間の動態のモニタリングに不可欠である。
最近のMultimodal Large Language Models (MLLM) は、EO理解の可能性を秘めているが、シングルセンサー入力に限定されている。
我々は、シングルセンサーとクロスセンサーの両方の入力を処理する統合視覚言語フレームワークであるEarthMindを提案する。
論文 参考訳(メタデータ) (2025-06-02T13:36:05Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - ImplicitTerrain: a Continuous Surface Model for Terrain Data Analysis [14.013976303831313]
ImplicitTerrainは、高解像度の地形を連続的に微分的にモデル化するための暗黙の神経表現(INR)アプローチである。
本実験では, 表面適合精度, 有効トポロジカル特徴抽出, 各種トポロジカル特徴抽出について検討した。
論文 参考訳(メタデータ) (2024-05-31T23:05:34Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - Biological Valuation Map of Flanders: A Sentinel-2 Imagery Analysis [12.025312586542318]
我々は、センチネル2衛星画像と組み合わせたフランダースの高密度なラベル付き地上真理マップを提示する。
提案手法は,地形図のレイアウトである「Kaartbladversnijdingen」と,詳細なセマンティックセグメンテーションモデルトレーニングパイプラインを利用する,形式化されたデータセット分割とサンプリング手法を含む。
論文 参考訳(メタデータ) (2024-01-26T22:21:39Z) - Weakly Supervised Domain Adaptation for Built-up Region Segmentation in
Aerial and Satellite Imagery [3.8508264614798517]
環境に対する人間の影響,公共政策の影響,一般都市人口分析を理解する上で,構築された地域推定は重要な要素である。
航空や衛星画像の多様性と、この多様性をカバーするラベル付きデータの欠如により、機械学習アルゴリズムの一般化が困難になる。
本稿では,衛星画像と空中画像の課題に対処する新しい領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-05T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。