論文の概要: Vision Mamba Distillation for Low-resolution Fine-grained Image Classification
- arxiv url: http://arxiv.org/abs/2411.17980v1
- Date: Wed, 27 Nov 2024 01:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:52.683621
- Title: Vision Mamba Distillation for Low-resolution Fine-grained Image Classification
- Title(参考訳): 低分解能微細画像分類のためのビジョンマンバ蒸留法
- Authors: Yao Chen, Jiabao Wang, Peichao Wang, Rui Zhang, Yang Li,
- Abstract要約: 低解像度きめ細かい画像分類の有効性と効率を高めるために,Vision Mamba Distillation (ViMD) アプローチを提案する。
ViMDは、より少ないパラメータとFLOPで類似した手法より優れており、組み込みデバイスアプリケーションに適している。
- 参考スコア(独自算出の注目度): 11.636461046632183
- License:
- Abstract: Low-resolution fine-grained image classification has recently made significant progress, largely thanks to the super-resolution techniques and knowledge distillation methods. However, these approaches lead to an exponential increase in the number of parameters and computational complexity of models. In order to solve this problem, in this letter, we propose a Vision Mamba Distillation (ViMD) approach to enhance the effectiveness and efficiency of low-resolution fine-grained image classification. Concretely, a lightweight super-resolution vision Mamba classification network (SRVM-Net) is proposed to improve its capability for extracting visual features by redesigning the classification sub-network with Mamba modeling. Moreover, we design a novel multi-level Mamba knowledge distillation loss boosting the performance, which can transfer prior knowledge obtained from a High-resolution Vision Mamba classification Network (HRVM-Net) as a teacher into the proposed SRVM-Net as a student. Extensive experiments on seven public fine-grained classification datasets related to benchmarks confirm our ViMD achieves a new state-of-the-art performance. While having higher accuracy, ViMD outperforms similar methods with fewer parameters and FLOPs, which is more suitable for embedded device applications. Code is available at https://github.com/boa2004plaust/ViMD.
- Abstract(参考訳): 低分解能きめ細かい画像分類は、主に超高分解能技術と知識蒸留法により、近年大きな進歩を遂げている。
しかし、これらのアプローチは、モデルのパラメータの数と計算複雑性を指数関数的に増加させる。
そこで本論文では,高精細画像分類の有効性と効率を高めるために,視覚マンバ蒸留(ViMD)手法を提案する。
具体的には,Mambaモデリングによる分類サブネットワークの再設計により,視覚特徴の抽出能力を向上させるために,軽量な超解像型Mamba分類ネットワーク(SRVM-Net)を提案する。
さらに,高解像度ビジョンマンバ分類ネットワーク(HRVM-Net)から得られた事前知識を,学生として提案したSRVM-Netに変換できる,新しいマルチレベルマンバ知識蒸留損失を設計する。
ベンチマークに関連する7つの公開きめ細かい分類データセットに関する大規模な実験により、我々のViMDが新たな最先端性能を達成することが確認された。
精度は高いが、ViMDはより少ないパラメータとFLOPで類似の手法より優れており、組み込みデバイスアプリケーションに適している。
コードはhttps://github.com/boa2004plaust/ViMDで入手できる。
関連論文リスト
- MambaLiteSR: Image Super-Resolution with Low-Rank Mamba using Knowledge Distillation [0.5243460995467893]
MambaLiteSRは、Vision Mambaのアーキテクチャを利用する、新しい軽量画像スーパーリゾリューション(SR)モデルである。
我々は,MambaLiteSRが15%少ないパラメータを用いて,ベースラインモデルと他のエッジモデルに匹敵する性能を実現することを示す。
また、訓練中の低エネルギー使用を維持しながら、最先端のSRエッジモデルと比較して消費電力を最大58%改善する。
論文 参考訳(メタデータ) (2025-02-19T20:32:03Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Enhancing Global Sensitivity and Uncertainty Quantification in Medical Image Reconstruction with Monte Carlo Arbitrary-Masked Mamba [22.852768590511058]
本稿では,共同医用画像再構成と不確実性推定のためのウェーブレット分解を用いたArbitrary-Masked MambaベースのモデルであるMambaMIRを紹介する。
新しいArbitrary Scan Masking (ASM) 機構は冗長な情報を「マスクアウト」し、さらなる不確実性推定のためにランダム性を導入する。
テクスチャのさらなる保存と知覚品質の向上のために,我々はMambaMIRへのウェーブレット変換を採用し,その変形を生成的逆数ネットワーク(MambaMIR-GAN)に基づいて探索する。
論文 参考訳(メタデータ) (2024-05-27T21:04:43Z) - VMambaCC: A Visual State Space Model for Crowd Counting [3.688427498755018]
本稿では,VMamba Crowd Counting(VMamba Crowd Counting)モデルを提案する。
VMambaCCはVMambaの利点を継承する。
本稿では,ハイレベルセマンティック監視特徴ピラミッドネットワーク(HS2PFN)を提案し,低レベルセマンティック情報とハイレベルセマンティック情報とを段階的に統合し,拡張する。
論文 参考訳(メタデータ) (2024-05-07T03:30:57Z) - DVMSR: Distillated Vision Mamba for Efficient Super-Resolution [7.551130027327461]
本研究では,ビジョン・マンバと蒸留戦略を組み込んだ新しい軽量画像SRネットワークであるDVMSRを提案する。
提案したDVMSRは,モデルパラメータの観点から,最先端の効率的なSR手法より優れている。
論文 参考訳(メタデータ) (2024-05-05T17:34:38Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。
近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。
我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:49:33Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。