論文の概要: Vision-LSTM: xLSTM as Generic Vision Backbone
- arxiv url: http://arxiv.org/abs/2406.04303v3
- Date: Thu, 20 Feb 2025 23:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:08:18.684833
- Title: Vision-LSTM: xLSTM as Generic Vision Backbone
- Title(参考訳): Vision-LSTM: ジェネリックビジョンバックボーンとしてのxLSTM
- Authors: Benedikt Alkin, Maximilian Beck, Korbinian Pöppel, Sepp Hochreiter, Johannes Brandstetter,
- Abstract要約: コンピュータビジョンに対する xLSTM ビルディングブロックの適応である Vision-LSTM (ViL) を導入する。
ViLはxLSTMブロックのスタックで構成され、奇異ブロックはパッチトークンのシーケンスを上から下へ処理する。
- 参考スコア(独自算出の注目度): 15.268672785769525
- License:
- Abstract: Transformers are widely used as generic backbones in computer vision, despite initially introduced for natural language processing. Recently, the Long Short-Term Memory (LSTM) has been extended to a scalable and performant architecture - the xLSTM - which overcomes long-standing LSTM limitations via exponential gating and parallelizable matrix memory structure. In this report, we introduce Vision-LSTM (ViL), an adaption of the xLSTM building blocks to computer vision. ViL comprises a stack of xLSTM blocks where odd blocks process the sequence of patch tokens from top to bottom while even blocks go from bottom to top. Experiments show that ViL holds promise to be further deployed as new generic backbone for computer vision architectures.
- Abstract(参考訳): トランスフォーマーは、自然言語処理に最初に導入されたにもかかわらず、コンピュータビジョンの一般的なバックボーンとして広く使われている。
最近、Long Short-Term Memory (LSTM) が拡張され、拡張性のあるアーキテクチャ xLSTM が拡張され、指数的ゲーティングと並列化可能な行列メモリ構造によって長期にわたるLSTMの制限を克服した。
本稿では, xLSTM ビルディングブロックをコンピュータビジョンに適用した Vision-LSTM (ViL) を紹介する。
ViLはxLSTMブロックのスタックで構成されており、奇異ブロックはパッチトークンのシーケンスを上から下へ処理し、ブロックも下から上へと処理する。
実験によると、ViLはコンピュータビジョンアーキテクチャのための新しい一般的なバックボーンとして、さらにデプロイされることを約束している。
関連論文リスト
- xLSTM-SENet: xLSTM for Single-Channel Speech Enhancement [19.76560732937885]
本稿では,最初のxLSTMに基づく単一チャネル音声強調システムであるxLSTM-SENetを紹介する。
我々の最良のxLSTMベースモデルであるxLSTM-SENet2は、Voicebank+DEMANDデータセット上で最先端のMambaおよびConformerベースのシステムより優れています。
論文 参考訳(メタデータ) (2025-01-10T18:10:06Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - HiVeGen -- Hierarchical LLM-based Verilog Generation for Scalable Chip Design [55.54477725000291]
HiVeGenは階層的なVerilog生成フレームワークで、生成タスクを階層的なサブモジュールに分解する。
自動設計空間探索(DSE)を階層対応のプロンプト生成に変換し、コードの再利用を強化するために重みに基づく検索を導入する。
エラー補正コストを低減し、生成した設計の質を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-06T19:37:53Z) - xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart [13.812935743270517]
医用画像セグメンテーションのバックボーンとしてVision-LSTM(xLSTM)を利用するUNet構造化ディープラーニングニューラルネットワークであるxLSTM-UNetを提案する。
xLSTMはLong Short-Term Memory (LSTM) ネットワークの後継として最近提案された。
以上の結果から,XLSTM-UNetはCNNベース,Transformerベース,およびMambaベースセグメンテーションネットワークの性能を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-01T17:59:54Z) - Are Vision xLSTM Embedded UNet More Reliable in Medical 3D Image Segmentation? [3.1777394653936937]
本稿では,CNNとVision-xLSTM(Vision-xLSTM)の統合について検討する。
ビジョン-xLSTMブロックは、CNNの機能マップから抽出されたパッチ内の時間的およびグローバルな関係をキャプチャする。
我々の主な目的は、Vision-xLSTMが医用画像セグメンテーションの適切なバックボーンを形成し、計算コストを削減して優れた性能を提供することである。
論文 参考訳(メタデータ) (2024-06-24T08:01:05Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - xLSTM: Extended Long Short-Term Memory [26.607656211983155]
1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
論文 参考訳(メタデータ) (2024-05-07T17:50:21Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。
実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。
新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-07-31T08:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。