論文の概要: Lightweight Vision Transformer with Window and Spatial Attention for Food Image Classification
- arxiv url: http://arxiv.org/abs/2509.18692v1
- Date: Tue, 23 Sep 2025 06:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.726823
- Title: Lightweight Vision Transformer with Window and Spatial Attention for Food Image Classification
- Title(参考訳): 食肉画像分類のためのウィンドウと空間アテンションを備えた軽量視覚変換器
- Authors: Xinle Gao, Linghui Ye, Zhiyong Xiao,
- Abstract要約: WMHAM(Window Multi-Head Attention Mechanism)とSAM(Spatial Attention Mechanism)を統合した軽量な食品画像分類アルゴリズムを提案する。
本モデルでは, それぞれ95.24%, 94.33%の精度を達成し, パラメータとFLOPをベースライン法と比較して有意に低減した。
- 参考スコア(独自算出の注目度): 1.1472801896854488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of society and continuous advances in science and technology, the food industry increasingly demands higher production quality and efficiency. Food image classification plays a vital role in enabling automated quality control on production lines, supporting food safety supervision, and promoting intelligent agricultural production. However, this task faces challenges due to the large number of parameters and high computational complexity of Vision Transformer models. To address these issues, we propose a lightweight food image classification algorithm that integrates a Window Multi-Head Attention Mechanism (WMHAM) and a Spatial Attention Mechanism (SAM). The WMHAM reduces computational cost by capturing local and global contextual features through efficient window partitioning, while the SAM adaptively emphasizes key spatial regions to improve discriminative feature representation. Experiments conducted on the Food-101 and Vireo Food-172 datasets demonstrate that our model achieves accuracies of 95.24% and 94.33%, respectively, while significantly reducing parameters and FLOPs compared with baseline methods. These results confirm that the proposed approach achieves an effective balance between computational efficiency and classification performance, making it well-suited for deployment in resource-constrained environments.
- Abstract(参考訳): 社会の急速な発展と科学と技術の継続的な進歩により、食品産業は生産の質と効率の向上をますます要求している。
食品画像分類は、生産ラインにおける自動品質管理の実現、食品安全管理の支援、知的農業生産の促進において重要な役割を担っている。
しかし、このタスクは、多数のパラメータとビジョントランスフォーマーモデルの計算量が多いため、課題に直面している。
そこで本研究では,WMHAM(Window Multi-Head Attention Mechanism)とSAM(Spatial Attention Mechanism)を統合した軽量な食品画像分類アルゴリズムを提案する。
WMHAMは、効率的なウィンドウ分割によって局所的・大域的特徴をキャプチャすることで計算コストを削減し、SAMは重要な空間領域を適応的に強調し、識別的特徴表現を改善する。
Food-101 と Vireo Food-172 を用いて行った実験では,本モデルがそれぞれ95.24% と 94.33% の精度を達成し,パラメータと FLOP を基準法と比較して有意に低減した。
これらの結果は,提案手法が計算効率と分類性能の効果的なバランスを達成し,資源制約環境への展開に適していることを確認した。
関連論文リスト
- AI in Agriculture: A Survey of Deep Learning Techniques for Crops, Fisheries and Livestock [77.95897723270453]
作物、漁業、家畜が世界の食料生産のバックボーンを形成し、成長を続ける世界の人口を養うのに不可欠である。
これらの問題に対処するには、効率的で正確でスケーラブルな技術ソリューションが必要であり、人工知能(AI)の重要性を強調している。
本調査では,従来の機械学習アプローチ,高度なディープラーニング技術,最新のビジョン言語基礎モデルなど,200以上の研究成果を体系的かつ徹底的にレビューする。
論文 参考訳(メタデータ) (2025-07-29T17:59:48Z) - Swin-TUNA : A Novel PEFT Approach for Accurate Food Image Segmentation [3.061662434597098]
本稿では,TUNable Adapterモジュール(Swin-TUNA)を紹介する。
マルチスケールトレーニング可能なアダプタを組み込んだPEFT法
Swin Transformerアーキテクチャ。
実験では、この手法がFoodSeg103とUECFoodPix Completeデータセットで50.56%と74.94%のmIoUを達成することを示した。
論文 参考訳(メタデータ) (2025-07-23T09:28:25Z) - Dual Atrous Separable Convolution for Improving Agricultural Semantic Segmentation [2.3636539018632616]
本研究では, 精密農業における効率的な画像分割手法を提案する。
Dual Atrous Separable Convolution (DAS Conv)モジュールはDeepLabV3ベースのセグメンテーションフレームワークに統合されている。
モデルの複雑さとパフォーマンスのトレードオフを考慮すると、66%以上の効率改善が達成されます。
論文 参考訳(メタデータ) (2025-06-27T18:37:43Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Computer Vision in the Food Industry: Accurate, Real-time, and Automatic Food Recognition with Pretrained MobileNetV2 [1.6590638305972631]
本研究は,16643画像からなる公共食品11データセット上での食品認識において,効率的かつ高速な事前訓練されたMobileNetV2モデルを用いる。
また、データセット理解、転送学習、データ拡張、正規化、動的学習率、ハイパーパラメータチューニング、さまざまなサイズの画像の考慮など、さまざまな技術を活用して、パフォーマンスと堅牢性を高めている。
より単純な構造を持ち、深層学習領域の深部・密度モデルと比較して訓練可能なパラメータが少ない光モデルを採用するが、短時間で計算可能な精度を達成した。
論文 参考訳(メタデータ) (2024-05-19T17:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。