Fugu-MT 論文翻訳(概要): LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation

論文の概要: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation

arxiv url: http://arxiv.org/abs/2408.16886v1
Date: Thu, 29 Aug 2024 20:19:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-02 17:08:59.095773
Title: LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation
Title（参考訳）: LV-UNet:医療画像セグメンテーションのための軽量バニラモデル
Authors: Juntao Jiang, Mengmeng Wang, Huizhong Tian, Lingbo Cheng, Yong Liu,
Abstract要約: 本稿では,事前学習したMobileNetv3-Largeモデルを効果的に活用し,推論モジュールを導入するLV-ColonUNetという軽量でバニラモデルを提案する。実験はISIC 2016、BUSI、CVC-CricDB、CVC-SEGデータセットで行われ、最先端技術モデルや古典モデルと比較してパフォーマンスが向上している。
参考スコア（独自算出の注目度）: 16.604140484767377
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Although the progress made by large models in computer vision, optimization challenges, the complexity of transformer models, computational limitations, and the requirements of practical applications call for simpler designs in model architecture for medical image segmentation, especially in mobile medical devices that require lightweight and deployable models with real-time performance. However, some of the current lightweight models exhibit poor robustness across different datasets, which hinders their broader adoption. This paper proposes a lightweight and vanilla model called LV-UNet, which effectively utilizes pre-trained MobileNetv3-Large models and introduces fusible modules. It can be trained using an improved deep training strategy and switched to deployment mode during inference, reducing both parameter count and computational load. Experiments are conducted on ISIC 2016, BUSI, CVC- ClinicDB, CVC-ColonDB, and Kvair-SEG datasets, achieving better performance compared to the state-of-the-art and classic models.
Abstract（参考訳）: コンピュータビジョンの大規模モデルによる進歩、最適化の課題、トランスフォーマーモデルの複雑さ、計算の制限、そして医療画像セグメンテーションのためのモデルアーキテクチャにおけるよりシンプルな設計、特にリアルタイムなパフォーマンスで軽量でデプロイ可能なモデルを必要とするモバイル医療機器への要求などである。しかしながら、現在の軽量モデルのいくつかは、さまざまなデータセット間の堅牢性が低いため、より広範な採用を妨げている。本稿では,事前学習したMobileNetv3-Largeモデルを利用した軽量かつバニラモデルLV-UNetを提案する。改良された深層トレーニング戦略を使用してトレーニングが可能で、推論中にデプロイメントモードに切り替えることで、パラメータカウントと計算負荷の両方を削減することができる。 ISIC 2016、BUSI、CVC- ClinicalDB、CVC-ColonDB、Kvair-SEGデータセットで実験が行われ、最先端のモデルや古典モデルと比較してパフォーマンスが向上している。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Memory Is Not the Bottleneck: Cost-Efficient Continual Learning via Weight Space Consolidation [55.77835198580209]
連続学習(CL)は、メモリが主要なボトルネックであると仮定して、メモリ使用量の最小化を伝統的に強調してきた。本稿では, CLを十分なメモリでより現実的な環境下で再検討し, システムが過去のデータの代表的部分を保持できることを示す。この体制下では、忘れることを減らすことによって安定性が向上するが、モデルが以前のタスクに偏り、新しいタスクに適応するのに苦労すると、可塑性は低下する。
論文参考訳（メタデータ） (2025-02-11T05:40:52Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
OnDev-LCT: On-Device Lightweight Convolutional Transformers towards federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文参考訳（メタデータ） (2024-01-22T02:17:36Z)
ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T16:55:50Z)
Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文参考訳（メタデータ） (2023-06-22T06:33:12Z)
READ: Recurrent Adaptation of Large Transformers [7.982905666062059]
モデルサイズとタスク数が増加するにつれて、微調整の大規模トランスフォーマーは実用的ではない。 textbfREcurrent textbfADaption (READ) を導入する。
論文参考訳（メタデータ） (2023-05-24T16:59:41Z)
Unifying Synergies between Self-supervised Learning and Dynamic Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。 SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文参考訳（メタデータ） (2023-01-22T17:12:58Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)
Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文参考訳（メタデータ） (2021-01-02T11:46:51Z)
Stable and expressive recurrent vision models [12.578121388491764]
コンストラクタ・リカレント・バックプロパゲーション (C-RBP) は, 再カレント処理のステップで一定のO(1)メモリ複雑度を達成する新しい学習アルゴリズムである。 C-RBPは、リカレントダイナミクスの恩恵を受けるあらゆるアプリケーションのための汎用学習アルゴリズムである。
論文参考訳（メタデータ） (2020-05-22T19:31:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。