論文の概要: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.16886v1
- Date: Thu, 29 Aug 2024 20:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 17:08:59.095773
- Title: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation
- Title(参考訳): LV-UNet:医療画像セグメンテーションのための軽量バニラモデル
- Authors: Juntao Jiang, Mengmeng Wang, Huizhong Tian, Lingbo Cheng, Yong Liu,
- Abstract要約: 本稿では,事前学習したMobileNetv3-Largeモデルを効果的に活用し,推論モジュールを導入するLV-ColonUNetという軽量でバニラモデルを提案する。
実験はISIC 2016、BUSI、CVC-CricDB、CVC-SEGデータセットで行われ、最先端技術モデルや古典モデルと比較してパフォーマンスが向上している。
- 参考スコア(独自算出の注目度): 16.604140484767377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although the progress made by large models in computer vision, optimization challenges, the complexity of transformer models, computational limitations, and the requirements of practical applications call for simpler designs in model architecture for medical image segmentation, especially in mobile medical devices that require lightweight and deployable models with real-time performance. However, some of the current lightweight models exhibit poor robustness across different datasets, which hinders their broader adoption. This paper proposes a lightweight and vanilla model called LV-UNet, which effectively utilizes pre-trained MobileNetv3-Large models and introduces fusible modules. It can be trained using an improved deep training strategy and switched to deployment mode during inference, reducing both parameter count and computational load. Experiments are conducted on ISIC 2016, BUSI, CVC- ClinicDB, CVC-ColonDB, and Kvair-SEG datasets, achieving better performance compared to the state-of-the-art and classic models.
- Abstract(参考訳): コンピュータビジョンの大規模モデルによる進歩、最適化の課題、トランスフォーマーモデルの複雑さ、計算の制限、そして医療画像セグメンテーションのためのモデルアーキテクチャにおけるよりシンプルな設計、特にリアルタイムなパフォーマンスで軽量でデプロイ可能なモデルを必要とするモバイル医療機器への要求などである。
しかしながら、現在の軽量モデルのいくつかは、さまざまなデータセット間の堅牢性が低いため、より広範な採用を妨げている。
本稿では,事前学習したMobileNetv3-Largeモデルを利用した軽量かつバニラモデルLV-UNetを提案する。
改良された深層トレーニング戦略を使用してトレーニングが可能で、推論中にデプロイメントモードに切り替えることで、パラメータカウントと計算負荷の両方を削減することができる。
ISIC 2016、BUSI、CVC- ClinicalDB、CVC-ColonDB、Kvair-SEGデータセットで実験が行われ、最先端のモデルや古典モデルと比較してパフォーマンスが向上している。
関連論文リスト
- LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。
textbfREcurrent textbfADaption (READ) を導入する。
論文 参考訳(メタデータ) (2023-05-24T16:59:41Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z) - Stable and expressive recurrent vision models [12.578121388491764]
コンストラクタ・リカレント・バックプロパゲーション (C-RBP) は, 再カレント処理のステップで一定のO(1)メモリ複雑度を達成する新しい学習アルゴリズムである。
C-RBPは、リカレントダイナミクスの恩恵を受けるあらゆるアプリケーションのための汎用学習アルゴリズムである。
論文 参考訳(メタデータ) (2020-05-22T19:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。