論文の概要: LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer
- arxiv url: http://arxiv.org/abs/2511.22812v1
- Date: Thu, 27 Nov 2025 23:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.7316
- Title: LC4-DViT: Land-cover Creation for Land-cover Classification with Deformable Vision Transformer
- Title(参考訳): LC4-DViT:変形可能な視覚変換器を用いた土地被覆分類のための土地被覆作成
- Authors: Kai Wang, Siyi Chen, Weicong Pang, Chenchen Zhang, Renjun Gao, Ziru Chen, Cheng Li, Dasa Gu, Rui Huang, Alexis Kai Hon Lau,
- Abstract要約: LC4-DViTは、生成データ生成と変形対応のVision Transformerを組み合わせたフレームワークである。
テキスト誘導拡散パイプラインは、GPT-4o生成シーン記述を用いて高忠実度トレーニング画像を合成する。
DViTは、DCNv4変形可能な畳み込みバックボーンとVision Transformerエンコーダを結合して、微細な幾何学とグローバルなコンテキストを共同でキャプチャする。
- 参考スコア(独自算出の注目度): 14.684808109822386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Land-cover underpins ecosystem services, hydrologic regulation, disaster-risk reduction, and evidence-based land planning; timely, accurate land-cover maps are therefore critical for environmental stewardship. Remote sensing-based land-cover classification offers a scalable route to such maps but is hindered by scarce and imbalanced annotations and by geometric distortions in high-resolution scenes. We propose LC4-DViT (Land-cover Creation for Land-cover Classification with Deformable Vision Transformer), a framework that combines generative data creation with a deformation-aware Vision Transformer. A text-guided diffusion pipeline uses GPT-4o-generated scene descriptions and super-resolved exemplars to synthesize class-balanced, high-fidelity training images, while DViT couples a DCNv4 deformable convolutional backbone with a Vision Transformer encoder to jointly capture fine-scale geometry and global context. On eight classes from the Aerial Image Dataset (AID)-Beach, Bridge, Desert, Forest, Mountain, Pond, Port, and River-DViT achieves 0.9572 overall accuracy, 0.9576 macro F1-score, and 0.9510 Cohen' s Kappa, improving over a vanilla ViT baseline (0.9274 OA, 0.9300 macro F1, 0.9169 Kappa) and outperforming ResNet50, MobileNetV2, and FlashInternImage. Cross-dataset experiments on a three-class SIRI-WHU subset (Harbor, Pond, River) yield 0.9333 overall accuracy, 0.9316 macro F1, and 0.8989 Kappa, indicating good transferability. An LLM-based judge using GPT-4o to score Grad-CAM heatmaps further shows that DViT' s attention aligns best with hydrologically meaningful structures. These results suggest that description-driven generative augmentation combined with deformation-aware transformers is a promising approach for high-resolution land-cover mapping.
- Abstract(参考訳): 土地被覆は生態系のサービス、水文学の規制、災害リスク低減、エビデンスに基づく土地計画を支えている。
リモートセンシングに基づく土地被覆分類は、そのような地図へのスケーラブルな経路を提供するが、希少かつ不均衡なアノテーションや高解像度のシーンにおける幾何学的歪みによって妨げられる。
本稿では,生成データ生成と変形認識型視覚変換器を組み合わせたLC4-DViT(Land-cover Creation for Land-cover Classification with Deformable Vision Transformer)を提案する。
テキスト誘導拡散パイプラインは、GPT-4o生成シーン記述と超解像例を用いて、クラスバランスの高い高忠実度トレーニングイメージを合成する一方、DViTは、DCNv4変形可能な畳み込みバックボーンとVision Transformerエンコーダを結合して、微細な幾何学とグローバルなコンテキストを共同でキャプチャする。
AID(Aerial Image Dataset)-Beach, Bridge, Desert, Forest, Mount, Pond, Port, River-DVitの8つのクラスでは、0.9572の総合精度、0.9576のマクロF1スコア、0.9510のコーエン's Kappa、バニラVTベースライン(0.9274 OA, 0.9300のマクロF1, 0.9169 Kappa)の改善、ResNet50, MobileNetV2, FlashIntern Imageのパフォーマンス向上を実現している。
3種類のSIRI-WHUサブセット(Harbor, Pond, River)のクロスデータセット実験では、0.9333の全体的な精度、0.9316マクロF1、0.8989カッパが得られた。
GPT-4oを用いてGd-CAMヒートマップを解析したところ、DViTの注意は水文学的に有意義な構造と最もよく一致していることがわかった。
これらの結果から,変形認識変換器を併用した記述駆動型生成拡張は,高分解能土地被覆マッピングに有望なアプローチであることが示唆された。
関連論文リスト
- Pix2Geomodel: A Next-Generation Reservoir Geomodeling with Property-to-Property Translation [2.004012818482403]
本研究では、Pix2Pixをベースとした新しい条件付き生成対向ネットワーク(cGAN)フレームワークであるPix2Geomodelを紹介する。
グローニンゲンガス田のロトリーゲンド貯水池から貯水池特性(空洞、ポーシティ、透水性、飽和度)を予測するように設計されている。
その結果, 病状 (PA 0.88, FWIoU 0.85) と水飽和 (PA 0.96, FWIoU 0.95) の精度が高く, 気孔率 (PA 0.70, FWIoU 0.55) と透過性 (PA 0.74, FWIoU 0.60) が適度に向上し, 翻訳性能も良好であった。
論文 参考訳(メタデータ) (2025-06-21T15:58:27Z) - Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings [1.2895931807247418]
視覚変換器(ViT)は、注意機構を介して長距離依存関係とグローバルコンテキストをキャプチャする利点を提供する。
ViTは、自己教師付き学習による事前トレーニングをサポートし、北極の特徴検出におけるラベル付きデータの共通制限を補完する。
本研究は,(1)高分解能北極リモートセンシングタスクのための特徴抽出器としての事前学習型ViTの適合性,(2)画像と位置情報の埋め込みの利点について検討する。
論文 参考訳(メタデータ) (2025-06-03T13:34:01Z) - STRMs: Spatial Temporal Reasoning Models for Vision-Based Localization Rivaling GPS Precision [3.671692919685993]
VAE-RNNとVAE-Transformerという2つの逐次生成モデルを導入し,一対一の視点観察をグローバルマップの視点表現に変換する。
我々は、ジャカルロボットによってナビゲートされた大学キャンパスと、Teslaセダンによってナビゲートされた都市中心街の2つの現実世界環境において、これらのモデルを評価した。
論文 参考訳(メタデータ) (2025-03-11T00:38:54Z) - DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution [26.746489317083352]
本稿では,CNNモデルのパイオニアである3D DeformUX-Netを紹介する。
計算効率に長範囲依存を適応させるため,体積変形可能な畳み込みを奥行き設定で再検討する。
我々の経験的評価は、3D DeformUX-Netが既存の最先端のViTや大規模なカーネル畳み込みモデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2023-09-30T00:33:41Z) - Vision Transformers, a new approach for high-resolution and large-scale
mapping of canopy heights [50.52704854147297]
分類(離散化)と連続損失関数を最適化した新しい視覚変換器(ViT)モデルを提案する。
このモデルは、従来使用されていた畳み込みベースのアプローチ(ConvNet)よりも、連続損失関数のみで最適化された精度が向上する。
論文 参考訳(メタデータ) (2023-04-22T22:39:03Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。
ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文 参考訳(メタデータ) (2022-04-26T10:00:28Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。