論文の概要: Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
- arxiv url: http://arxiv.org/abs/2406.14086v1
- Date: Thu, 20 Jun 2024 08:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 14:50:31.127146
- Title: Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
- Title(参考訳): Seg-LSTM:リモートセンシング画像のセマンティックセグメンテーションのためのxLSTMの性能
- Authors: Qinfeng Zhu, Yuanzhi Cai, Lei Fan,
- Abstract要約: 本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
- 参考スコア(独自算出の注目度): 1.5954224931801726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in autoregressive networks with linear complexity have driven significant research progress, demonstrating exceptional performance in large language models. A representative model is the Extended Long Short-Term Memory (xLSTM), which incorporates gating mechanisms and memory structures, performing comparably to Transformer architectures in long-sequence language tasks. Autoregressive networks such as xLSTM can utilize image serialization to extend their application to visual tasks such as classification and segmentation. Although existing studies have demonstrated Vision-LSTM's impressive results in image classification, its performance in image semantic segmentation remains unverified. Our study represents the first attempt to evaluate the effectiveness of Vision-LSTM in the semantic segmentation of remotely sensed images. This evaluation is based on a specifically designed encoder-decoder architecture named Seg-LSTM, and comparisons with state-of-the-art segmentation networks. Our study found that Vision-LSTM's performance in semantic segmentation was limited and generally inferior to Vision-Transformers-based and Vision-Mamba-based models in most comparative tests. Future research directions for enhancing Vision-LSTM are recommended. The source code is available from https://github.com/zhuqinfeng1999/Seg-LSTM.
- Abstract(参考訳): 線形複雑性を持つ自己回帰ネットワークの最近の進歩は、大きな言語モデルにおいて例外的な性能を示すなど、大きな研究の進展を招いている。
代表的なモデルは拡張長短期記憶(Extensioned Long Short-Term Memory, xLSTM)であり、これはゲーティング機構とメモリ構造を組み込んだもので、長いシーケンス言語タスクにおいてトランスフォーマーアーキテクチャと互換性がある。
xLSTMのような自動回帰ネットワークは、イメージシリアライゼーションを利用して、分類やセグメンテーションといった視覚的なタスクに応用を拡張できる。
既存の研究では、画像分類におけるVision-LSTMの顕著な結果を示しているが、画像意味的セグメンテーションのパフォーマンスは検証されていない。
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
この評価は、Seg-LSTMと呼ばれる専用に設計されたエンコーダデコーダアーキテクチャと、最先端セグメンテーションネットワークとの比較に基づいている。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
Vision-LSTMの今後の研究指針が推奨されている。
ソースコードはhttps://github.com/zhuqinfeng 1999/Seg-LSTMから入手できる。
関連論文リスト
- xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。
以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:59:54Z) - Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)モデルの統合について,UVixLSTMと呼ばれる新しいアプローチを導入することにより検討する。
Vision-xLSTMブロックは、CNN特徴マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
UVixLSTMは、公開データセットの最先端ネットワークよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-06-24T08:01:05Z) - Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - VM-UNet: Vision Mamba UNet for Medical Image Segmentation [3.170171905334503]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。
我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-04T13:37:21Z) - Vision Mamba: Efficient Visual Representation Learning with
Bidirectional State Space Model [51.10876815815515]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z) - Multi-level Context Gating of Embedded Collective Knowledge for Medical
Image Segmentation [32.96604621259756]
医用画像分割のためのU-Netの拡張を提案する。
U-Net, Squeeze and Excitation (SE) block, bi-directional ConvLSTM (BConvLSTM), and the mechanism of dense convolutions。
提案モデルは6つのデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-10T12:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。