論文の概要: HRVMamba: High-Resolution Visual State Space Model for Dense Prediction
- arxiv url: http://arxiv.org/abs/2410.03174v1
- Date: Fri, 4 Oct 2024 06:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:14:31.071460
- Title: HRVMamba: High-Resolution Visual State Space Model for Dense Prediction
- Title(参考訳): HRVMamba: 密度予測のための高解像度ビジュアルステートスペースモデル
- Authors: Hao Zhang, Yongqiang Ma, Wenqi Shao, Ping Luo, Nanning Zheng, Kaipeng Zhang,
- Abstract要約: 効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
- 参考スコア(独自算出の注目度): 60.80423207808076
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, State Space Models (SSMs) with efficient hardware-aware designs, i.e., Mamba, have demonstrated significant potential in computer vision tasks due to their linear computational complexity with respect to token length and their global receptive field. However, Mamba's performance on dense prediction tasks, including human pose estimation and semantic segmentation, has been constrained by three key challenges: insufficient inductive bias, long-range forgetting, and low-resolution output representation. To address these challenges, we introduce the Dynamic Visual State Space (DVSS) block, which utilizes multi-scale convolutional kernels to extract local features across different scales and enhance inductive bias, and employs deformable convolution to mitigate the long-range forgetting problem while enabling adaptive spatial aggregation based on input and task-specific information. By leveraging the multi-resolution parallel design proposed in HRNet, we introduce High-Resolution Visual State Space Model (HRVMamba) based on the DVSS block, which preserves high-resolution representations throughout the entire process while promoting effective multi-scale feature learning. Extensive experiments highlight HRVMamba's impressive performance on dense prediction tasks, achieving competitive results against existing benchmark models without bells and whistles. Code is available at https://github.com/zhanghao5201/HRVMamba.
- Abstract(参考訳): 近年、効率的なハードウェア対応設計(Mamba)を備えた状態空間モデル(SSM)は、トークン長とグローバルな受容領域に関する線形計算の複雑さから、コンピュータビジョンタスクにおいて有意な可能性を証明している。
しかし、人間のポーズ推定やセマンティックセグメンテーションを含む密集した予測タスクにおけるマンバのパフォーマンスは、帰納的バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
これらの課題に対処するために,マルチスケールの畳み込みカーネルを用いた動的ビジュアル状態空間(DVSS)ブロックを導入し,様々なスケールの局所的特徴を抽出し,帰納的バイアスを高めるとともに,変形可能な畳み込みを用いて,入力情報とタスク固有情報に基づいて適応的な空間的アグリゲーションを実現する。
DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し、プロセス全体を通して高分解能表現を保存し、効果的なマルチスケール特徴学習を促進する。
大規模な実験では、HRVMambaの高密度予測タスクにおける印象的なパフォーマンスを強調し、ベルやホイッスルを使わずに既存のベンチマークモデルと競合する結果を達成している。
コードはhttps://github.com/zhanghao5201/HRVMamba.comで入手できる。
関連論文リスト
- A Multitask Deep Learning Model for Classification and Regression of Hyperspectral Images: Application to the large-scale dataset [44.94304541427113]
ハイパースペクトル画像上で複数の分類タスクと回帰タスクを同時に行うマルチタスク深層学習モデルを提案する。
我々は、TAIGAと呼ばれる大規模なハイパースペクトルデータセットに対するアプローチを検証した。
結果の総合的定性的および定量的分析により,提案手法が他の最先端手法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2024-07-23T11:14:54Z) - Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model [26.786890883280062]
状態空間モデル(SSM)は、その大域的受容場と線形複雑性のために広く注目を集めている。
視覚タスクにおけるSSMの性能向上のために,マルチスキャン戦略が広く採用されている。
本稿では,MSVMamba(Multi-Scale Vision Mamba)を導入し,限られたパラメータを持つ視覚タスクにおけるSSMの優位性を維持する。
論文 参考訳(メタデータ) (2024-05-23T04:59:49Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Video Anomaly Detection by Estimating Likelihood of Representations [21.879366166261228]
ビデオ異常は、モーション表現、オブジェクトのローカライゼーション、アクション認識など、多くのサブタスクを解決するため、困難なタスクである。
伝統的に、この課題に対する解決策は、これらの特徴の空間的接続を無視しながら、ビデオフレームとその低次元特徴のマッピングに焦点を当ててきた。
最近のソリューションでは、K-Meansのようなハードクラスタリング技術を用いてこれらの空間的接続を分析することや、潜伏した特徴を一般的な理解にマップするためにニューラルネットワークを適用することに焦点を当てている。
潜在特徴空間における映像異常を解決するために,このタスクを密度推定問題に転送するための深い確率モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T19:16:22Z) - Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。
本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。
敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2020-07-01T09:06:20Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。