論文の概要: Context-Aware Semantic Segmentation via Stage-Wise Attention
- arxiv url: http://arxiv.org/abs/2601.11310v1
- Date: Fri, 16 Jan 2026 14:06:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.514396
- Title: Context-Aware Semantic Segmentation via Stage-Wise Attention
- Title(参考訳): ステージワイズ注意による文脈認識セマンティックセマンティックセグメンテーション
- Authors: Antoine Carreaud, Elias Naha, Arthur Chansel, Nina Lahellec, Jan Skaloud, Adrien Gressin,
- Abstract要約: CASWiT(Context-Aware Stage-Wise Transformer)は,グローバルキューを微細なUHR機能に注入する,デュアルブランチのスウィンベースアーキテクチャである。
クロスアテンションとゲート機能インジェクションを組み合わせたクロススケールフュージョンモジュールは、高解像度トークンをコンテキストと統合する。
大規模IGN FLAIR-HUB航空データセットの実験は、CASWiTの有効性を実証している。
- 参考スコア(独自算出の注目度): 0.10995326465245929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic ultra high resolution image (UHR) segmentation is essential in remote sensing applications such as aerial mapping and environmental monitoring. Transformer-based models struggle in this setting because memory grows quadratically with token count, constraining either the contextual scope or the spatial resolution. We introduce CASWiT (Context-Aware Stage-Wise Transformer), a dual-branch, Swin-based architecture that injects global cues into fine-grained UHR features. A context encoder processes a downsampled neighborhood to capture long-range dependencies, while a high resolution encoder extracts detailed features from UHR patches. A cross-scale fusion module, combining cross-attention and gated feature injection, enriches high-resolution tokens with context. Beyond architecture, we propose a SimMIM-style pretraining. We mask 75% of the high-resolution image tokens and the low-resolution center region that spatially corresponds to the UHR patch, then train the shared dual-encoder with small decoder to reconstruct the UHR initial image. Extensive experiments on the large-scale IGN FLAIR-HUB aerial dataset demonstrate the effectiveness of CASWiT. Our method achieves 65.83% mIoU, outperforming RGB baselines by 1.78 points. On URUR, CASWiT achieves 49.1% mIoU, surpassing the current SoTA by +0.9% under the official evaluation protocol. All codes are provided on: https://huggingface.co/collections/heig-vd-geo/caswit.
- Abstract(参考訳): 超高分解能画像(UHR)のセグメンテーションは、空中マッピングや環境モニタリングなどのリモートセンシングアプリケーションに不可欠である。
トランスフォーマーベースのモデルは、メモリがトークン数と二乗的に成長し、コンテキストスコープまたは空間解像度を制約するため、この設定で苦労する。
CASWiT(Context-Aware Stage-Wise Transformer)は,グローバルキューを微細なUHR機能に注入する,デュアルブランチのスウィンベースアーキテクチャである。
コンテキストエンコーダは、ダウンサンプリングされた近所を処理して長距離依存関係をキャプチャし、高解像度エンコーダはUHRパッチから詳細な特徴を抽出する。
クロスアテンションとゲート機能インジェクションを組み合わせたクロススケールフュージョンモジュールは、高解像度トークンをコンテキストと統合する。
アーキテクチャ以外にも,SimMIMスタイルの事前学習を提案する。
我々は、高解像度画像トークンの75%と、空間的にUHRパッチに対応する低解像度中心領域をマスクし、共有デュアルエンコーダを小さなデコーダでトレーニングし、UHR初期画像の再構成を行う。
大規模IGN FLAIR-HUB航空データセットの大規模な実験は、CASWiTの有効性を実証している。
本手法は65.83% mIoUを達成し,RGBベースラインを1.78ポイント上回った。
URURでは、CASWiTは49.1% mIoUを達成し、公式評価プロトコルの下で現在のSoTAを+0.9%上回っている。
すべてのコードは、https://huggingface.co/collections/heig-vd-geo/caswitで提供される。
関連論文リスト
- LKASeg:Remote-Sensing Image Semantic Segmentation with Large Kernel Attention and Full-Scale Skip Connections [27.473573286685063]
LKASegというリモートセンシング画像セマンティックセマンティックネットワークを提案する。
LKASegはLarge Kernel Attention(LSKA)とFull-Scale Skip Connection(FSC)を組み合わせる
ISPRSのベイヒンゲンデータセットでは、mF1とmIoUのスコアは90.33%と82.77%に達した。
論文 参考訳(メタデータ) (2024-10-14T12:25:48Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - OPE-SR: Orthogonal Position Encoding for Designing a Parameter-free
Upsampling Module in Arbitrary-scale Image Super-Resolution [11.74426147465809]
インプリシット・ニューラル表現(INR)は、任意のスケールの画像超解像に対する一般的なアプローチである。
我々は、任意のスケールの画像超解像のためにINRベースのアップサンプリングモジュールを置き換えるOPE-Upscaleモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-02T09:26:14Z) - Attention Attention Everywhere: Monocular Depth Prediction with Skip
Attention [6.491470878214977]
単眼深度推定(MDE)は、1枚のRGB画像から画素幅の深さを予測することを目的としている。
コンピュータビジョン問題における注目のメリットの実証から着想を得て,注意に基づくエンコーダとデコーダの融合を提案する。
論文 参考訳(メタデータ) (2022-10-17T13:14:47Z) - Learning to Aggregate Multi-Scale Context for Instance Segmentation in
Remote Sensing Images [28.560068780733342]
特徴抽出のプロセスを改善するために,新しいコンテキスト集約ネットワーク(CATNet)を提案する。
提案モデルは,高密度特徴ピラミッドネットワーク(DenseFPN),空間コンテキストピラミッド(SCP),階層的関心抽出器(HRoIE)の3つの軽量プラグアンドプレイモジュールを利用する。
論文 参考訳(メタデータ) (2021-11-22T08:55:25Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。