論文の概要: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.16886v2
- Date: Sun, 24 Nov 2024 20:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:14:26.653456
- Title: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation
- Title(参考訳): LV-UNet:医療画像セグメンテーションのための軽量バニラモデル
- Authors: Juntao Jiang, Mengmeng Wang, Huizhong Tian, Lingbo Cheng, Yong Liu,
- Abstract要約: 本稿では,事前学習したMobileNetv3-Largeのバックボーンを活用し,モジュールを組み込んだ軽量かつバニラモデルであるLVUNetを紹介する。
ISIC 2016、BUSI、CVCClinicDB、CVCColonDB、KvairSEGデータセットの実験結果は、パフォーマンスと計算負荷のトレードオフをより良く示している。
- 参考スコア(独自算出の注目度): 16.604140484767377
- License:
- Abstract: While large models have achieved significant progress in computer vision, challenges such as optimization complexity, the intricacy of transformer architectures, computational constraints, and practical application demands highlight the importance of simpler model designs in medical image segmentation. This need is particularly pronounced in mobile medical devices, which require lightweight, deployable models with real-time performance. However, existing lightweight models often suffer from poor robustness across datasets, limiting their widespread adoption. To address these challenges, this paper introduces LV-UNet, a lightweight and vanilla model that leverages pre-trained MobileNetv3-Large backbones and incorporates fusible modules. LV-UNet employs an enhanced deep training strategy and switches to a deployment mode during inference by re-parametrization, significantly reducing parameter count and computational overhead. Experimental results on ISIC 2016, BUSI, CVC-ClinicDB, CVC-ColonDB, and Kvair-SEG datasets demonstrate a better trade-off between performance and the computational load. The code will be released at \url{https://github.com/juntaoJianggavin/LV-UNet}.
- Abstract(参考訳): 大規模モデルはコンピュータビジョンにおいて大きな進歩を遂げてきたが、最適化の複雑さ、トランスフォーマーアーキテクチャの複雑さ、計算の制約、実用的な応用要求といった課題は、医療画像のセグメンテーションにおけるより単純なモデル設計の重要性を強調している。
このニーズは特に、軽量でデプロイ可能なモデルとリアルタイムのパフォーマンスを必要とするモバイル医療機器で顕著である。
しかしながら、既存の軽量モデルはデータセット間の堅牢性に悩まされ、広く採用されることが制限されることが多い。
これらの課題に対処するため,本稿では,事前学習したMobileNetv3-Largeバックボーンを活用し,可溶モジュールを組み込んだ軽量かつバニラモデルであるLV-UNetを紹介する。
LV-UNetは強化された深層トレーニング戦略を採用し、再パラメータ化による推論中にデプロイモードに切り替え、パラメータカウントと計算オーバーヘッドを大幅に削減する。
ISIC 2016、BUSI、CVC-ClinicDB、CVC-ColonDB、Kvair-SEGデータセットの実験結果は、パフォーマンスと計算負荷のトレードオフをより良く示している。
コードは \url{https://github.com/juntaoJianggavin/LV-UNet} でリリースされる。
関連論文リスト
- LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Stable and expressive recurrent vision models [12.578121388491764]
コンストラクタ・リカレント・バックプロパゲーション (C-RBP) は, 再カレント処理のステップで一定のO(1)メモリ複雑度を達成する新しい学習アルゴリズムである。
C-RBPは、リカレントダイナミクスの恩恵を受けるあらゆるアプリケーションのための汎用学習アルゴリズムである。
論文 参考訳(メタデータ) (2020-05-22T19:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。