論文の概要: MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance
- arxiv url: http://arxiv.org/abs/2412.10730v1
- Date: Sat, 14 Dec 2024 07:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:48.588507
- Title: MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance
- Title(参考訳): MAL: xLSTMビジョン性能向上のためのクラスタマップとマルチタスク事前トレーニング
- Authors: Wenjun Huang, Jianguo Hu,
- Abstract要約: MAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を導入する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
我々のユニバーサルエンコーダ・デコーダ事前訓練アプローチは、画像自己回帰、深さ推定、画像分割を含む複数のタスクを統合し、様々な視覚的タスクにおけるモデルの適応性と堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 2.45239928345171
- License:
- Abstract: The Long Short-Term Memory (LSTM) networks have traditionally faced challenges in scaling and effectively capturing complex dependencies in visual tasks. The xLSTM architecture has emerged to address these limitations, incorporating exponential gating and a parallel matrix memory structure to enhance performance and scalability. Despite these advancements, the potential of xLSTM in visual computing has not been fully realized, particularly in leveraging autoregressive techniques for improved feature extraction. In this paper, we introduce MAL (Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance), a novel framework that enhances xLSTM's capabilities through innovative pretraining strategies. We propose a cluster-masked masking method that significantly improves local feature capture and optimizes image scanning efficiency. Additionally, our universal encoder-decoder pretraining approach integrates multiple tasks, including image autoregression, depth estimation, and image segmentation, thereby enhancing the model's adaptability and robustness across diverse visual tasks. Our experimental results demonstrate that MAL surpasses traditional supervised models and fully leverages the scaling potential of xLSTM, setting a new benchmark in visual task performance.
- Abstract(参考訳): LSTM(Long Short-Term Memory)ネットワークは、伝統的に、視覚タスクにおける複雑な依存関係をスケーリングし、効果的にキャプチャする上で、課題に直面してきた。
xLSTMアーキテクチャはこれらの制限に対処するために登場し、指数的ゲーティングと並列行列メモリ構造を導入し、性能と拡張性を高めた。
これらの進歩にもかかわらず、ビジュアルコンピューティングにおけるxLSTMの可能性は、特に機能抽出の改善に自己回帰技術を活用することには、完全には実現されていない。
本稿では、革新的な事前学習戦略を通じて、xLSTMの能力を高める新しいフレームワークであるMAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を紹介する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
さらに,我々のユニバーサルエンコーダ・デコーダ事前学習手法は,画像自己回帰,深度推定,画像分割を含む複数のタスクを統合し,多様な視覚的タスクに対するモデルの適応性と堅牢性を向上させる。
実験の結果、MALは従来の教師付きモデルを超え、xLSTMのスケーリング可能性を完全に活用し、視覚タスク性能の新たなベンチマークを設定できることがわかった。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network [0.8287206589886881]
本稿では、拡張長短期記憶(xLSTM)から派生した新しいアーキテクチャであるxLSTM-FERを紹介する。
xLSTM-FERは入力画像を一連のパッチに分割して処理し、これらのパッチを処理するためにxLSTMブロックのスタックを活用する。
CK+、RAF-DF、FERplusの実験は、発現認識タスクにおけるxLSTM-FERの可能性を示している。
論文 参考訳(メタデータ) (2024-10-07T14:29:24Z) - Resource-Efficient Multiview Perception: Integrating Semantic Masking with Masked Autoencoders [6.498925999634298]
本稿では、マスク付きオートエンコーダ(MAE)を用いた通信効率の高い分散マルチビュー検出と追跡のための新しい手法を提案する。
本稿では,事前訓練されたセグメンテーションモデルと調整可能なパワー関数を利用して,情報領域の優先順位付けを行う意味誘導型マスキング手法を提案する。
我々は,仮想および実世界のマルチビューデータセットを用いて本手法の評価を行い,性能指標の検出と追跡において同等の性能を示す。
論文 参考訳(メタデータ) (2024-10-07T08:06:41Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Seg-LSTM: Performance of xLSTM for Semantic Segmentation of Remotely Sensed Images [1.5954224931801726]
本研究は、リモートセンシング画像のセマンティックセグメンテーションにおけるビジョン-LSTMの有効性を評価するための最初の試みである。
セグメンテーションにおけるVision-LSTMの性能は,ほとんどの比較試験において,Vision-TransformersベースのモデルとVision-Mambaベースのモデルよりも限定的であり,概して劣っていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T08:01:28Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Large Scale Mask Optimization Via Convolutional Fourier Neural Operator
and Litho-Guided Self Training [54.16367467777526]
マスクタスクを効率的に学習できる畳み込みニューラルネットワーク(CFCF)を提案する。
機械学習ベースのフレームワークが初めて、最先端の数値マスクデータセットを上回った。
論文 参考訳(メタデータ) (2022-07-08T16:39:31Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。