Fugu-MT 論文翻訳(概要): Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images

論文の概要: Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images

arxiv url: http://arxiv.org/abs/2406.14086v1
Date: Thu, 20 Jun 2024 08:01:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 14:50:31.127146
Title: Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images
Title（参考訳）: Seg-LSTM:リモートセンシング画像のセマンティックセグメンテーションのためのxLSTMの性能
Authors: Qinfeng Zhu, Yuanzhi Cai, Lei Fan,
Abstract要約: 本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
参考スコア（独自算出の注目度）: 1.5954224931801726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in autoregressive networks with linear complexity have driven significant research progress, demonstrating exceptional performance in large language models. A representative model is the Extended Long Short-Term Memory (xLSTM), which incorporates gating mechanisms and memory structures, performing comparably to Transformer architectures in long-sequence language tasks. Autoregressive networks such as xLSTM can utilize image serialization to extend their application to visual tasks such as classification and segmentation. Although existing studies have demonstrated Vision-LSTM's impressive results in image classification, its performance in image semantic segmentation remains unverified. Our study represents the first attempt to evaluate the effectiveness of Vision-LSTM in the semantic segmentation of remotely sensed images. This evaluation is based on a specifically designed encoder-decoder architecture named Seg-LSTM, and comparisons with state-of-the-art segmentation networks. Our study found that Vision-LSTM's performance in semantic segmentation was limited and generally inferior to Vision-Transformers-based and Vision-Mamba-based models in most comparative tests. Future research directions for enhancing Vision-LSTM are recommended. The source code is available from https://github.com/zhuqinfeng1999/Seg-LSTM.
Abstract（参考訳）: 線形複雑性を持つ自己回帰ネットワークの最近の進歩は、大きな言語モデルにおいて例外的な性能を示すなど、大きな研究の進展を招いている。代表的なモデルは拡張長短期記憶(Extensioned Long Short-Term Memory, xLSTM)であり、これはゲーティング機構とメモリ構造を組み込んだもので、長いシーケンス言語タスクにおいてトランスフォーマーアーキテクチャと互換性がある。 xLSTMのような自動回帰ネットワークは、イメージシリアライゼーションを利用して、分類やセグメンテーションといった視覚的なタスクに応用を拡張できる。既存の研究では、画像分類におけるVision-LSTMの顕著な結果を示しているが、画像意味的セグメンテーションのパフォーマンスは検証されていない。本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。この評価は、Seg-LSTMと呼ばれる専用に設計されたエンコーダデコーダアーキテクチャと、最先端セグメンテーションネットワークとの比較に基づいている。セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。 Vision-LSTMの今後の研究指針が推奨されている。ソースコードはhttps://github.com/zhuqinfeng 1999/Seg-LSTMから入手できる。

関連論文リスト

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer [68.71557348281007]
本稿では,単一変圧器統合多モーダル大言語モデル(MLLM)であるSAILを紹介する。事前訓練された視覚変換器(ViT)に依存している既存のモジュール型MLLMとは異なり、SAILは別個の視覚エンコーダを必要としない。我々は,SAILの特性(スケーラビリティ,クロスモーダル情報フローパターン,視覚表現能力など)をモジュール型MLLMと体系的に比較した。
論文参考訳（メタデータ） (2025-04-14T17:50:20Z)
DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。 DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文参考訳（メタデータ） (2025-02-18T08:12:47Z)
MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance [2.45239928345171]
MAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を導入する。本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。我々のユニバーサルエンコーダ・デコーダ事前訓練アプローチは、画像自己回帰、深さ推定、画像分割を含む複数のタスクを統合し、様々な視覚的タスクにおけるモデルの適応性と堅牢性を向上させる。
論文参考訳（メタデータ） (2024-12-14T07:58:24Z)
Heuristical Comparison of Vision Transformers Against Convolutional Neural Networks for Semantic Segmentation on Remote Sensing Imagery [0.0]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンの分野で新しい研究の波をもたらした。本稿では、iSAID上のリモートセンシング空中画像のセマンティックセグメンテーションにViTを使用する(あるいは使用しない)3つの重要な要素の比較に焦点をあてる。
論文参考訳（メタデータ） (2024-11-14T00:18:04Z)
xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。 xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-07-01T17:59:54Z)
Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)モデルの統合について,UVixLSTMと呼ばれる新しいアプローチを導入することにより検討する。 Vision-xLSTMブロックは、CNN特徴マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。 UVixLSTMは、公開データセットの最先端ネットワークよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-06-24T08:01:05Z)
Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文参考訳（メタデータ） (2024-05-23T09:13:36Z)
PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。 PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文参考訳（メタデータ） (2024-03-21T17:50:47Z)
VM-UNet: Vision Mamba UNet for Medical Image Segmentation [2.3876474175791302]
医用画像セグメンテーションのためのU字型アーキテクチャモデルVision Mamba UNet(VM-UNet)を提案する。我々はISIC17,ISIC18,Synapseデータセットの総合的な実験を行い,VM-UNetが医用画像分割タスクにおいて競争力を発揮することを示す。
論文参考訳（メタデータ） (2024-02-04T13:37:21Z)
Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文参考訳（メタデータ） (2023-12-19T08:14:14Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS) 我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文参考訳（メタデータ） (2021-08-04T20:09:21Z)
Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文参考訳（メタデータ） (2021-05-06T16:44:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。