論文の概要: Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid
Algorithm with Transformer and CNN Encoders
- arxiv url: http://arxiv.org/abs/2308.13917v1
- Date: Sat, 26 Aug 2023 16:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 18:05:41.054867
- Title: Transfer Learning for Microstructure Segmentation with CS-UNet: A Hybrid
Algorithm with Transformer and CNN Encoders
- Title(参考訳): CS-UNetを用いた組織分割のためのトランスファー学習:トランスフォーマとCNNエンコーダを用いたハイブリッドアルゴリズム
- Authors: Khaled Alrfou, Tian Zhao, Amir Kordijazi
- Abstract要約: 顕微鏡画像上で事前学習したTransformerモデルとCNNモデルのセグメンテーション性能を、自然画像上で事前学習したモデルと比較する。
また,画像セグメンテーションにおいて,事前学習したトランスフォーマーとCNNエンコーダの組み合わせは,事前学習したCNNエンコーダ単独よりも一貫して優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.2353157426758003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning improves the performance of deep learning models by
initializing them with parameters pre-trained on larger datasets. Intuitively,
transfer learning is more effective when pre-training is on the in-domain
datasets. A recent study by NASA has demonstrated that the microstructure
segmentation with encoder-decoder algorithms benefits more from CNN encoders
pre-trained on microscopy images than from those pre-trained on natural images.
However, CNN models only capture the local spatial relations in images. In
recent years, attention networks such as Transformers are increasingly used in
image analysis to capture the long-range relations between pixels. In this
study, we compare the segmentation performance of Transformer and CNN models
pre-trained on microscopy images with those pre-trained on natural images. Our
result partially confirms the NASA study that the segmentation performance of
out-of-distribution images (taken under different imaging and sample
conditions) is significantly improved when pre-training on microscopy images.
However, the performance gain for one-shot and few-shot learning is more modest
with Transformers. We also find that for image segmentation, the combination of
pre-trained Transformers and CNN encoders are consistently better than
pre-trained CNN encoders alone. Our dataset (of about 50,000 images) combines
the public portion of the NASA dataset with additional images we collected.
Even with much less training data, our pre-trained models have significantly
better performance for image segmentation. This result suggests that
Transformers and CNN complement each other and when pre-trained on microscopy
images, they are more beneficial to the downstream tasks.
- Abstract(参考訳): 転送学習は、大きなデータセットで事前トレーニングされたパラメータを初期化することで、ディープラーニングモデルのパフォーマンスを向上させる。
直感的には、ドメイン内データセットで事前トレーニングを行う場合、転送学習の方が効果的である。
NASAによる最近の研究では、エンコーダ-デコーダアルゴリズムによるマイクロ構造セグメンテーションは、顕微鏡画像で事前訓練されたマイクロコンダよりも、CNNエンコーダから恩恵を受けていることが示されている。
しかし、cnnモデルは画像内の局所的な空間関係のみを捉えている。
近年,トランスフォーマーなどの注目ネットワークが画像解析に利用され,画素間の長距離関係を捉えている。
本研究では,顕微鏡画像で事前学習したトランスフォーマおよびcnnモデルのセグメンテーション性能と,自然画像で事前学習したモデルとの比較を行った。
その結果, 顕微鏡画像の事前トレーニングにおいて, 分布外画像(異なる撮像条件および試料条件下での撮影)の分画性能が著しく向上することを確認した。
しかし、Transformersでは、ワンショットと少数ショットの学習のパフォーマンス向上は控えめである。
また,画像セグメンテーションでは,プリトレーニングトランスフォーマとcnnエンコーダの組み合わせが,プリトレーニングcnnエンコーダ単独よりも一貫して優れていることがわかった。
私たちのデータセット(約5万枚の画像)は、NASAデータセットの公開部分と、収集した追加画像を組み合わせています。
トレーニングデータが少なくても、トレーニング済みのモデルでは、画像セグメンテーションのパフォーマンスが大幅に向上します。
この結果は、TransformerとCNNが相互に補完し、顕微鏡画像で事前学習すると、下流のタスクに対してより有益であることを示している。
関連論文リスト
- ConvTransSeg: A Multi-resolution Convolution-Transformer Network for
Medical Image Segmentation [14.485482467748113]
ハイブリッドエンコーダ/デコーダセグメンテーションモデル(ConvTransSeg)を提案する。
特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。
本手法は,モデル複雑度とメモリ消費率の低いDice係数と平均対称表面距離の測定値で最高の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T14:59:23Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Training Vision Transformers with Only 2040 Images [35.86457465241119]
視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。
本手法は他の手法よりも優れているという理論的解析を行い,特徴のアライメントとインスタンスの類似性の両方を捉えることができる。
様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られます。
論文 参考訳(メタデータ) (2022-01-26T03:22:08Z) - Semi-Supervised Medical Image Segmentation via Cross Teaching between
CNN and Transformer [11.381487613753004]
本稿では,CNN と Transformer の相互教育を導入することで,半教師付き医用画像セグメンテーションの枠組みを提案する。
特に、この研究は、CNNとトランスフォーマーを組み合わせて半教師付き医療画像セグメンテーションを行い、公的なベンチマークで有望な結果を得る最初の試みかもしれない。
論文 参考訳(メタデータ) (2021-12-09T13:22:38Z) - Vision Pair Learning: An Efficient Training Framework for Image
Classification [0.8223798883838329]
TransformerとCNNは、表現学習と収束速度を補完する。
ビジョンペアラーニング(VPL)は、トランスフォーマーブランチ、CNNブランチ、ペアラーニングモジュールで構成されるネットワークを構築する。
VPLは、ImageNet-1kバリデーションセットのViT-BaseとResNet-50のトップ1の精度を、それぞれ83.47%と79.61%に向上させる。
論文 参考訳(メタデータ) (2021-12-02T03:45:16Z) - Semi-Supervised Vision Transformers [76.83020291497895]
半教師付き画像分類のための視覚変換器の訓練について検討する。
半教師付き ImageNet 設定では,ビジョントランスフォーマーの性能が良くない。
CNNは小さなラベル付きデータ構造において優れた結果を得る。
論文 参考訳(メタデータ) (2021-11-22T09:28:13Z) - Investigating Transfer Learning Capabilities of Vision Transformers and
CNNs by Fine-Tuning a Single Trainable Block [0.0]
トランスフォーマーベースのアーキテクチャは、CNNアーキテクチャによる最先端のセットを精度で上回っているが、スクラッチからトレーニングするには計算コストが非常に高い。
転送学習能力について検討し、CNNと比較し、小型データを用いた実世界の問題に適用した場合に、どのアーキテクチャが優れているかを理解する。
変換器をベースとしたアーキテクチャは,CNNよりも高い精度を実現するだけでなく,パラメータの約4倍の精度で実現している。
論文 参考訳(メタデータ) (2021-10-11T13:43:03Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。