論文の概要: MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance
- arxiv url: http://arxiv.org/abs/2412.10730v1
- Date: Sat, 14 Dec 2024 07:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:48.588507
- Title: MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance
- Title(参考訳): MAL: xLSTMビジョン性能向上のためのクラスタマップとマルチタスク事前トレーニング
- Authors: Wenjun Huang, Jianguo Hu,
- Abstract要約: MAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を導入する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
我々のユニバーサルエンコーダ・デコーダ事前訓練アプローチは、画像自己回帰、深さ推定、画像分割を含む複数のタスクを統合し、様々な視覚的タスクにおけるモデルの適応性と堅牢性を向上させる。
- 参考スコア(独自算出の注目度): 2.45239928345171
- License:
- Abstract: The Long Short-Term Memory (LSTM) networks have traditionally faced challenges in scaling and effectively capturing complex dependencies in visual tasks. The xLSTM architecture has emerged to address these limitations, incorporating exponential gating and a parallel matrix memory structure to enhance performance and scalability. Despite these advancements, the potential of xLSTM in visual computing has not been fully realized, particularly in leveraging autoregressive techniques for improved feature extraction. In this paper, we introduce MAL (Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance), a novel framework that enhances xLSTM's capabilities through innovative pretraining strategies. We propose a cluster-masked masking method that significantly improves local feature capture and optimizes image scanning efficiency. Additionally, our universal encoder-decoder pretraining approach integrates multiple tasks, including image autoregression, depth estimation, and image segmentation, thereby enhancing the model's adaptability and robustness across diverse visual tasks. Our experimental results demonstrate that MAL surpasses traditional supervised models and fully leverages the scaling potential of xLSTM, setting a new benchmark in visual task performance.
- Abstract(参考訳): LSTM(Long Short-Term Memory)ネットワークは、伝統的に、視覚タスクにおける複雑な依存関係をスケーリングし、効果的にキャプチャする上で、課題に直面してきた。
xLSTMアーキテクチャはこれらの制限に対処するために登場し、指数的ゲーティングと並列行列メモリ構造を導入し、性能と拡張性を高めた。
これらの進歩にもかかわらず、ビジュアルコンピューティングにおけるxLSTMの可能性は、特に機能抽出の改善に自己回帰技術を活用することには、完全には実現されていない。
本稿では、革新的な事前学習戦略を通じて、xLSTMの能力を高める新しいフレームワークであるMAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を紹介する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
さらに,我々のユニバーサルエンコーダ・デコーダ事前学習手法は,画像自己回帰,深度推定,画像分割を含む複数のタスクを統合し,多様な視覚的タスクに対するモデルの適応性と堅牢性を向上させる。
実験の結果、MALは従来の教師付きモデルを超え、xLSTMのスケーリング可能性を完全に活用し、視覚タスク性能の新たなベンチマークを設定できることがわかった。
関連論文リスト
- Improving Autoregressive Visual Generation with Cluster-Oriented Token Prediction [52.09472099976885]
IARは改良された自己回帰型ビジュアルジェネレーション手法である。
バランスの取れたk平均クラスタリングアルゴリズムを用いたCodebook Rearrangement戦略を提案する。
また,クラスタ指向のクロスエントロピーロスを提案し,トークンの所在するクラスタを正確に予測する。
論文 参考訳(メタデータ) (2025-01-01T15:58:51Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - xLSTM-FER: Enhancing Student Expression Recognition with Extended Vision Long Short-Term Memory Network [0.8287206589886881]
本稿では、拡張長短期記憶(xLSTM)から派生した新しいアーキテクチャであるxLSTM-FERを紹介する。
xLSTM-FERは入力画像を一連のパッチに分割して処理し、これらのパッチを処理するためにxLSTMブロックのスタックを活用する。
CK+、RAF-DF、FERplusの実験は、発現認識タスクにおけるxLSTM-FERの可能性を示している。
論文 参考訳(メタデータ) (2024-10-07T14:29:24Z) - HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。