論文の概要: Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis
- arxiv url: http://arxiv.org/abs/2403.18063v2
- Date: Mon, 3 Jun 2024 18:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 12:19:03.510919
- Title: Heracles: A Hybrid SSM-Transformer Model for High-Resolution Image and Time-Series Analysis
- Title(参考訳): ヘラクレス:高分解能画像と時系列解析のためのハイブリッドSSM変換器モデル
- Authors: Badri N. Patro, Suhas Ranganath, Vinay P. Namboodiri, Vijay S. Agneeswaran,
- Abstract要約: Heraclesは、ローカルSSM、グローバルSSM、アテンションベースのトークンインタラクションモジュールを統合した、新しいSSMである。
Heraclesは、ImageNetデータセット上で84.5%のトップ1精度で最先端のパフォーマンスを達成する。
ヘラクレスは、CIFAR-10、CIFAR-100、オックスフォード・フラワーズ、スタンフォード・カーズといったデータセットのトランスファー学習タスクを卓越している。
- 参考スコア(独自算出の注目度): 23.511807886483087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformers have revolutionized image modeling tasks with adaptations like DeIT, Swin, SVT, Biformer, STVit, and FDVIT. However, these models often face challenges with inductive bias and high quadratic complexity, making them less efficient for high-resolution images. State space models (SSMs) such as Mamba, V-Mamba, ViM, and SiMBA offer an alternative to handle high resolution images in computer vision tasks. These SSMs encounter two major issues. First, they become unstable when scaled to large network sizes. Second, although they efficiently capture global information in images, they inherently struggle with handling local information. To address these challenges, we introduce Heracles, a novel SSM that integrates a local SSM, a global SSM, and an attention-based token interaction module. Heracles leverages a Hartely kernel-based state space model for global image information, a localized convolutional network for local details, and attention mechanisms in deeper layers for token interactions. Our extensive experiments demonstrate that Heracles-C-small achieves state-of-the-art performance on the ImageNet dataset with 84.5\% top-1 accuracy. Heracles-C-Large and Heracles-C-Huge further improve accuracy to 85.9\% and 86.4\%, respectively. Additionally, Heracles excels in transfer learning tasks on datasets such as CIFAR-10, CIFAR-100, Oxford Flowers, and Stanford Cars, and in instance segmentation on the MSCOCO dataset. Heracles also proves its versatility by achieving state-of-the-art results on seven time-series datasets, showcasing its ability to generalize across domains with spectral data, capturing both local and global information. The project page is available at this link.\url{https://github.com/badripatro/heracles}
- Abstract(参考訳): トランスフォーマーは、DeIT、Swin、SVT、Biformer、STVit、FDVITなどの適応で画像モデリングタスクに革命をもたらした。
しかし、これらのモデルはしばしば誘導バイアスと高い二次的複雑性の課題に直面し、高解像度画像では効率が低下する。
Mamba、V-Mamba、ViM、SiMBAのような状態空間モデル(SSM)は、コンピュータビジョンタスクで高解像度の画像を処理する代替手段を提供する。
これらのSSMは2つの大きな問題に遭遇する。
まず、大規模なネットワークサイズにスケールすると不安定になる。
第二に、画像内のグローバルな情報を効率的にキャプチャするが、本質的にはローカル情報を扱うのに苦労する。
これらの課題に対処するため,ローカルSSM,グローバルSSM,アテンションベースのトークンインタラクションモジュールを統合した新しいSSMであるHeraclesを紹介した。
Heraclesは、グローバルイメージ情報のためのHartelyカーネルベースのステートスペースモデル、ローカル詳細のためのローカライズされた畳み込みネットワーク、トークンインタラクションのためのより深いレイヤにおけるアテンションメカニズムを活用する。
大規模な実験により、Heracles-C-smallは84.5\%のトップ-1精度でImageNetデータセット上で最先端のパフォーマンスを達成することが示された。
Heracles-C-Large と Heracles-C-Huge はさらに精度を 85.9\% と 86.4\% に改善した。
さらに、Heraclesは、CIFAR-10、CIFAR-100、Oxford Flowers、Stanford Carsといったデータセット上のトランスファー学習タスクや、例えばMSCOCOデータセット上のセグメンテーションに優れています。
ヘラクレスはまた、7つの時系列データセットで最先端の結果を達成し、スペクトルデータでドメインをまたいで一般化する能力を示し、ローカル情報とグローバル情報の両方をキャプチャすることで、その汎用性を証明している。
プロジェクトのページはこちらのリンクで公開されている。
https://github.com/badripatro/heracles}
関連論文リスト
- Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters [12.182070604073585]
CNNは、画像のセマンティック情報を完全に活用する能力を制限して、長距離依存のモデリングに苦労する。
変換器は二次計算の複雑さによって妨げられる。
本稿では,Mambaアーキテクチャに基づくモデルを提案する。
論文 参考訳(メタデータ) (2024-09-12T10:01:33Z) - LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation [0.9831489366502301]
State Space ModelであるMambaは、最近、畳み込みニューラルネットワーク(CNN)とトランスフォーマーに競合するパフォーマンスを示した。
医療画像セグメンテーション(MIS)を含むコンピュータビジョンタスクにマンバを適応させる様々な試みがなされている。
論文 参考訳(メタデータ) (2024-08-26T17:02:25Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks
for Image Super-Resolution [83.47467223117361]
画像の超解像化に有効な軽量な動的局所・大域自己アテンションネットワーク(DLGSANet)を提案する。
トランスフォーマーのネットワーク設計により,ローカル特徴を効率的に抽出するシンプルなマルチヘッド動的自己アテンション(MHDLSA)モジュールを開発した。
この問題を解決するために,最も有用な類似値を選択するために,スパースグローバル自己アテンション(SparseGSA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-01-05T12:06:47Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。