論文の概要: Res-VMamba: Fine-Grained Food Category Visual Classification Using
Selective State Space Models with Deep Residual Learning
- arxiv url: http://arxiv.org/abs/2402.15761v1
- Date: Sat, 24 Feb 2024 08:20:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:00:17.137789
- Title: Res-VMamba: Fine-Grained Food Category Visual Classification Using
Selective State Space Models with Deep Residual Learning
- Title(参考訳): res-vmamba:深層学習を伴う選択的状態空間モデルを用いた食品分類
- Authors: Chi-Sheng Chen, Guan-Ying Chen, Dong Zhou, Di Jiang, Dai-Shi Chen
- Abstract要約: 我々は,学術的に過小評価された食品データセットCNFOOD-241を導入し,VMambaモデルにおける残留学習フレームワークの統合の先駆者となった。
その結果,VMambaは細粒度および食品の分類において,現在のSOTAモデルを上回っていることがわかった。
- 参考スコア(独自算出の注目度): 21.561939617455742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food classification is the foundation for developing food vision tasks and
plays a key role in the burgeoning field of computational nutrition. Due to the
complexity of food requiring fine-grained classification, recent academic
research mainly modifies Convolutional Neural Networks (CNNs) and/or Vision
Transformers (ViTs) to perform food category classification. However, to learn
fine-grained features, the CNN backbone needs additional structural design,
whereas ViT, containing the self-attention module, has increased computational
complexity. In recent months, a new Sequence State Space (S4) model, through a
Selection mechanism and computation with a Scan (S6), colloquially termed
Mamba, has demonstrated superior performance and computation efficiency
compared to the Transformer architecture. The VMamba model, which incorporates
the Mamba mechanism into image tasks (such as classification), currently
establishes the state-of-the-art (SOTA) on the ImageNet dataset. In this
research, we introduce an academically underestimated food dataset CNFOOD-241,
and pioneer the integration of a residual learning framework within the VMamba
model to concurrently harness both global and local state features inherent in
the original VMamba architectural design. The research results show that VMamba
surpasses current SOTA models in fine-grained and food classification. The
proposed Res-VMamba further improves the classification accuracy to 79.54\%
without pretrained weight. Our findings elucidate that our proposed methodology
establishes a new benchmark for SOTA performance in food recognition on the
CNFOOD-241 dataset. The code can be obtained on GitHub:
https://github.com/ChiShengChen/ResVMamba.
- Abstract(参考訳): 食品分類は食品ビジョンタスクの基盤であり、計算栄養の急成長において重要な役割を担っている。
食品の細粒度分類が複雑であるため、近年の研究では主に畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)を修飾して食品の分類を行った。
しかしながら、きめ細かな特徴を学ぶために、cnnバックボーンはさらなる構造設計を必要とするが、vitは自己完結モジュールを含み、計算の複雑さが増大する。
近年、新しいシーケンス状態空間(s4)モデルは、選択機構とスキャンによる計算(s6)を通じて、口語でmambaと呼ばれ、トランスフォーマアーキテクチャよりも優れた性能と計算効率を示している。
Mambaメカニズムをイメージタスク(分類など)に組み込んだVMambaモデルは、現在、ImageNetデータセット上の最先端(SOTA)を確立している。
本研究では,学術的に過小評価された食品データセットCNFOOD-241を導入するとともに,元のVMambaアーキテクチャ設計に固有のグローバルおよびローカル両方の特徴を同時に活用するために,VMambaモデル内の残差学習フレームワークの統合を開拓する。
その結果,VMambaは細粒度および食品の分類において,現在のSOTAモデルを上回ることがわかった。
res-vmambaの分類精度はさらに79.54\%に向上した。
提案手法は,CNFOOD-241データセットを用いた食品認識におけるSOTA性能の新たな評価基準を確立した。
GitHubでは、https://github.com/ChiShengChen/ResVMamba.comでコードが取得できる。
関連論文リスト
- Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Vision Mamba: A Comprehensive Survey and Taxonomy [11.025533218561284]
状態空間モデル (State Space Model, SSM) は、動的システムの振る舞いを記述・解析するために用いられる数学的モデルである。
最新の状態空間モデルに基づいて、Mambaは時間変化パラメータをSSMにマージし、効率的なトレーニングと推論のためのハードウェア認識アルゴリズムを定式化する。
Mambaは、Transformerを上回る可能性のある、新たなAIアーキテクチャになることが期待されている。
論文 参考訳(メタデータ) (2024-05-07T15:30:14Z) - RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-28T17:59:49Z) - RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。
状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。
同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:07:05Z) - nnMamba: 3D Biomedical Image Segmentation, Classification and Landmark
Detection with State Space Model [24.955052600683423]
本稿では、CNNの強みとステートスペースシーケンスモデル(SSM)の高度な長距離モデリング機能を統合する新しいアーキテクチャであるnnMambaを紹介する。
6つのデータセットの実験では、3D画像のセグメンテーション、分類、ランドマーク検出など、一連の困難なタスクにおいて、nnMambaが最先端のメソッドよりも優れていることが示されている。
論文 参考訳(メタデータ) (2024-02-05T21:28:47Z) - Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。
Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-05T18:58:11Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。