論文の概要: A Controlled Benchmark of Visual State-Space Backbones with Domain-Shift and Boundary Analysis for Remote-Sensing Segmentation
- arxiv url: http://arxiv.org/abs/2604.18721v1
- Date: Mon, 20 Apr 2026 18:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.414597
- Title: A Controlled Benchmark of Visual State-Space Backbones with Domain-Shift and Boundary Analysis for Remote-Sensing Segmentation
- Title(参考訳): リモートセンシングセグメンテーションのための領域シフトと境界解析による視覚状態空間バックボーンのベンチマーク
- Authors: Nichula Wasalathilaka, Dineth Perera, Oshadha Samarakoon, Buddhi Wijenayake, Roshan Godaliyadda, Vijitha Herath, Parakrama Ekanayake,
- Abstract要約: 視覚状態空間モデル(SSM)は視覚変換器の効率的な代替品として推奨される。
既存の研究では、デコーダとトレーニングの選択からエンコーダ効果を滅多に分離している。
本稿では,VMamba,MambaVision,Spatial-Mambaを含む視覚的SSMファミリーのベンチマークを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Visual state-space models (SSMs) are increasingly promoted as efficient alternatives to Vision Transformers, yet their practical advantages remain unclear under fair comparison because existing studies rarely isolate encoder effects from decoder and training choices. We present a strictly controlled benchmark of representative visual SSM families, including VMamba, MambaVision, and Spatial-Mamba, for remote-sensing semantic segmentation, in which only the encoder varies across experiments. Evaluated on LoveDA and ISPRS Potsdam under a unified 4-stage feature interface and a fixed lightweight decoder, the benchmark reveals three main findings, intra-family scaling yields only modest gains, cross-domain generalization is strongly asymmetric, and boundary delineation is the dominant failure mode under distribution shift. Although visual SSMs achieve favorable accuracy-efficiency trade-offs relative to the controlled CNN and Transformer baselines considered here, the results suggest that future improvements are more likely to come from robustness-oriented design and boundary-aware decoding than from encoder scaling alone. By isolating encoder behavior under a unified and reproducible protocol, this study establishes a practical reference benchmark for the design and evaluation of future Mamba-based segmentation backbones
- Abstract(参考訳): 視覚状態空間モデル(SSM)はビジョントランスフォーマーの効率的な代替手段としてますます推進されているが、既存の研究ではデコーダとトレーニングの選択からエンコーダ効果を滅多に分離しないため、その実用的優位性は公平に比較されていない。
リモートセンシングセマンティックセグメンテーションのために,VMamba,MambaVision,Spatial-Mambaなどの視覚的SSMファミリーを厳格に制御したベンチマークを行った。
LoveDAとISPRS Potsdamを統一された4段機能インターフェースと固定軽量デコーダで評価した結果,3つの主要な発見が得られた。
視覚的SSMは制御されたCNNとトランスフォーマーのベースラインに対して良好な精度・効率のトレードオフを実現するが、この結果から将来の改善はエンコーダスケーリングのみによるよりもロバストネス指向の設計とバウンダリ認識のデコーディングによるものである可能性が示唆された。
本研究は,エンコーダの動作を統一かつ再現可能なプロトコルで分離することにより,将来のマンバ系セグメンテーションバックボーンの設計と評価のための実用的な基準ベンチマークを確立する。
関連論文リスト
- Connecting Domains and Contrasting Samples: A Ladder for Domain Generalization [52.52838658375592]
本稿では,ドメイン間の概念的接続性を高めるために,ドメイン接続型コントラスト学習(DCCL)を提案する。
データ側では、クラス内の接続性を改善するために、よりアグレッシブなデータ拡張とクロスドメインの陽性サンプルが導入されている。
その結果、DCCLはドメインの監督なしに最先端のベースラインを上回ることが確認された。
論文 参考訳(メタデータ) (2025-10-19T04:13:29Z) - Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing [55.291219073365546]
Open-Vocabulary Remote Sensing Image (OVRSIS)は、OVS(Open-Vocabulary)をリモートセンシング(RS)ドメインに適応させる新しいタスクである。
textbfRSKT-Segは、リモートセンシングに適した新しいオープン語彙セグメンテーションフレームワークである。
RSKT-Segは高いOVSベースラインを+3.8 mIoUと+5.9 mACCで上回り、効率的なアグリゲーションによって2倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-09-15T15:24:49Z) - Efficient Remote Sensing Change Detection with Change State Space Models [4.698129958118586]
変化状態空間モデルは、バイテンポラル画像間の関連する変化に着目して、変化検出のために特別に設計されている。
提案したモデルは3つのベンチマークデータセットを通じて評価され、計算複雑性のごく一部で、ConvNets、ViTs、Mambaベースのモデルを上回った。
論文 参考訳(メタデータ) (2025-04-15T11:25:10Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model [32.03242732902217]
本稿では、ソースドメインデータに基づいてトレーニングされたモデルをターゲットドメインサンプルに適用するという課題に対処する。
SAM(Segment Anything Model)とSAM-JOANet(SAM-JOANet)を併用した協調最適化対向ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T02:15:20Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。