論文の概要: Swin-TUNA : A Novel PEFT Approach for Accurate Food Image Segmentation
- arxiv url: http://arxiv.org/abs/2507.17347v3
- Date: Mon, 28 Jul 2025 08:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.057389
- Title: Swin-TUNA : A Novel PEFT Approach for Accurate Food Image Segmentation
- Title(参考訳): Swin-TUNA : 高精度食品画像分割のためのPEFTアプローチ
- Authors: Haotian Chen, Zhiyong Xiao,
- Abstract要約: 本稿では,TUNable Adapterモジュール(Swin-TUNA)を紹介する。
マルチスケールトレーニング可能なアダプタを組み込んだPEFT法
Swin Transformerアーキテクチャ。
実験では、この手法がFoodSeg103とUECFoodPix Completeデータセットで50.56%と74.94%のmIoUを達成することを示した。
- 参考スコア(独自算出の注目度): 3.061662434597098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of food image processing, efficient semantic segmentation techniques are crucial for industrial applications. However, existing large-scale Transformer-based models (such as FoodSAM) face challenges in meeting practical deploymentrequirements due to their massive parameter counts and high computational resource demands. This paper introduces TUNable Adapter module (Swin-TUNA), a Parameter Efficient Fine-Tuning (PEFT) method that integrates multiscale trainable adapters into the Swin Transformer architecture, achieving high-performance food image segmentation by updating only 4% of the parameters. The core innovation of Swin-TUNA lies in its hierarchical feature adaptation mechanism: it designs separable convolutions in depth and dimensional mappings of varying scales to address the differences in features between shallow and deep networks, combined with a dynamic balancing strategy for tasks-agnostic and task-specific features. Experiments demonstrate that this method achieves mIoU of 50.56% and 74.94% on the FoodSeg103 and UECFoodPix Complete datasets, respectively, surpassing the fully parameterized FoodSAM model while reducing the parameter count by 98.7% (to only 8.13M). Furthermore, Swin-TUNA exhibits faster convergence and stronger generalization capabilities in low-data scenarios, providing an efficient solution for assembling lightweight food image.
- Abstract(参考訳): 食品画像処理の分野では,効率的なセマンティックセグメンテーション技術が産業用途に不可欠である。
しかし、既存の大規模トランスフォーマーベースのモデル(FoodSAMなど)は、膨大なパラメータ数と高い計算資源要求のために、実際の配置要求を満たす上で困難に直面している。
本稿では,マルチスケールトレーニング可能なアダプタをSwin Transformerアーキテクチャに統合し,パラメータの4%だけを更新することで,高性能な食品画像セグメンテーションを実現するPEFT法であるTUNable Adapterモジュール(Swin-TUNA)を提案する。
Swin-TUNAの中核となる革新は、その階層的な特徴適応機構にある。浅層ネットワークと深層ネットワークの違いに対処するために、様々なスケールの分割可能な畳み込みと次元マッピングを設計し、タスクに依存しない機能とタスク固有の機能のための動的バランス戦略を組み合わせる。
実験の結果、この手法はFoodSeg103とUECFoodPix完全データセットでそれぞれ50.56%と74.94%のmIoUを達成し、完全なパラメータ化されたFoodSAMモデルを超え、パラメータ数を98.7%削減した(わずか8.13M)。
さらに、Swin-TUNAは、低データシナリオにおいてより高速な収束とより強力な一般化能力を示し、軽量な食品イメージを組み立てるための効率的なソリューションを提供する。
関連論文リスト
- Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。
提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文 参考訳(メタデータ) (2025-02-10T13:06:56Z) - RECAST: Reparameterized, Compact weight Adaptation for Sequential Tasks [16.512587987753967]
RECASTはタスク固有のトレーニング可能なパラメータを50未満に劇的に削減する新しい手法である。
本稿では,RECASTが様々なスケール,アーキテクチャ,パラメータ空間において,最先端の技術を最大3%向上させることを示す。
論文 参考訳(メタデータ) (2024-11-25T19:08:38Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Parameter Efficient Adaptation for Image Restoration with Heterogeneous Mixture-of-Experts [52.39959535724677]
画像復元モデルの一般化を改善するための代替手法を提案する。
ローカル,グローバル,チャネル表現ベースをキャプチャするマルチブランチ設計のMixture-of-Experts (MoE) であるAdaptIRを提案する。
我々のAdaptIRは、単一劣化タスクにおける安定した性能を実現し、8時間間、微調整はわずか0.6%のパラメータしか持たず、ハイブリッド劣化タスクにおいて優れる。
論文 参考訳(メタデータ) (2023-12-12T14:27:59Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。