論文の概要: Exploiting CNNs for Semantic Segmentation with Pascal VOC
- arxiv url: http://arxiv.org/abs/2304.13216v2
- Date: Fri, 5 May 2023 05:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:43:50.587174
- Title: Exploiting CNNs for Semantic Segmentation with Pascal VOC
- Title(参考訳): pascal vocを用いた意味セグメンテーションにおけるcnnの活用
- Authors: Sourabh Prakash, Priyanshi Shah, Ashrya Agrawal
- Abstract要約: 本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを実現した。
パフォーマンスと動作を分析し、その後、ベースラインにおける問題に3つの改善を加えて対処します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a comprehensive study on semantic segmentation with
the Pascal VOC dataset. Here, we have to label each pixel with a class which in
turn segments the entire image based on the objects/entities present. To tackle
this, we firstly use a Fully Convolution Network (FCN) baseline which gave
71.31% pixel accuracy and 0.0527 mean IoU. We analyze its performance and
working and subsequently address the issues in the baseline with three
improvements: a) cosine annealing learning rate scheduler(pixel accuracy:
72.86%, IoU: 0.0529), b) data augmentation(pixel accuracy: 69.88%, IoU: 0.0585)
c) class imbalance weights(pixel accuracy: 68.98%, IoU: 0.0596). Apart from
these changes in training pipeline, we also explore three different
architectures: a) Our proposed model -- Advanced FCN (pixel accuracy: 67.20%,
IoU: 0.0602) b) Transfer Learning with ResNet (Best performance) (pixel
accuracy: 71.33%, IoU: 0.0926 ) c) U-Net(pixel accuracy: 72.15%, IoU: 0.0649).
We observe that the improvements help in greatly improving the performance, as
reflected both, in metrics and segmentation maps. Interestingly, we observe
that among the improvements, dataset augmentation has the greatest
contribution. Also, note that transfer learning model performs the best on the
pascal dataset. We analyse the performance of these using loss, accuracy and
IoU plots along with segmentation maps, which help us draw valuable insights
about the working of the models.
- Abstract(参考訳): 本稿では,Pascal VOCデータセットを用いたセマンティックセグメンテーションに関する総合的研究を行う。
ここで、各ピクセルにクラスをラベル付けし、オブジェクト/エンティティに基づいてイメージ全体をセグメンテーションする必要があります。
これを解決するために、まずFCN(Fully Convolution Network)ベースラインを使用し、71.31%の精度と0.0527の平均IoUを与えた。
パフォーマンスと動作を分析し、次にベースラインでの問題に3つの改善を加えます。
a)コサイン焼鈍学習率スケジューラ(画素精度:72.86%、IoU:0.00529)
b)データ拡張(画素精度:69.88%、iou: 0.0585)
c)クラス不均衡重量(ピクセル精度:68.98%、iou: 0.0596)
これらのトレーニングパイプラインの変更とは別に、3つの異なるアーキテクチャも検討しています。
a)提案したモデル -- Advanced FCN (ピクセル精度:67.20%、IoU:0.0602)
b)ResNetによる転送学習(ベストパフォーマンス)(画素精度:71.33%、IoU:0.0926)
c) U-Net(ピクセル精度:72.15%、IoU: 0.0649)
改善は、メトリクスとセグメンテーションマップの両方で反映されるように、パフォーマンスを大幅に改善するのに役立ちます。
興味深いことに、改善の中でデータセット拡張が最も貢献しているのがわかります。
また、転送学習モデルがpascalデータセットで最善を尽くしていることに注意してください。
損失、精度、IoUプロットとセグメンテーションマップを用いてこれらの性能を分析し、モデルの動作に関する貴重な洞察を得るのに役立ちます。
関連論文リスト
- Keypoint Aware Masked Image Modelling [0.34530027457862006]
KAMIMは16.12%から33.97%に改善され、ImageNet-1Kデータセットで同じ数のエポックでトレーニングされた際には76.78%から77.3%まで微調整精度が向上した。
また,KAMIMを用いて訓練したViT-Bの学習表現を解析し,その行動に関する対照的な学習と同様の行動を示す。
論文 参考訳(メタデータ) (2024-07-18T19:41:46Z) - Self-Supervised Versus Supervised Training for Segmentation of Organoid
Images [2.6242820867975127]
大量の顕微鏡画像データセットがラベル付けされていないままであり、ディープラーニングアルゴリズムによる効果的な利用を妨げている。
自己教師付き学習(SSL)は、ラベルを必要とせずにメインタスクに類似したプリテキストタスクの下で固有の特徴を学習する、有望なソリューションである。
ResNet50 U-Netは、構造化類似度指数(Structure similarity Index Metric, SSIM)だけで、L1損失と組み合わせてSSIMを用いて、肝臓前駆体オルガノイドのイメージを拡張画像から復元する訓練が最初に行われた。
比較のために、同じU-Netアーキテクチャを使って、2つの教師付きモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-11-19T01:57:55Z) - CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - Point Label Aware Superpixels for Multi-species Segmentation of
Underwater Imagery [4.195806160139487]
水中車両を用いたサンゴ礁のモニタリングは、海洋調査の範囲を増やし、歴史的生態データの入手を可能にしている。
セマンティックセグメンテーションモデルを訓練するために,スーパーピクセル領域内のラベルを伝播する点ラベル認識手法を提案する。
本手法は,UCSDモザイクデータセットにおいて,画素精度が3.62%,ラベル伝搬タスクが平均IoUが8.35%向上した。
論文 参考訳(メタデータ) (2022-02-27T23:46:43Z) - VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。
我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。
グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。
実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文 参考訳(メタデータ) (2021-06-24T15:46:54Z) - Calibrated prediction in and out-of-domain for state-of-the-art saliency
modeling [17.739797071488212]
我々は、ImageNetのバックボーンを検査する大規模なトランスファー学習を行っている。
DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。
複数のバックボーンを原則的に組み合わせることで、未知のデータセットに対する良好な信頼性キャリブレーションを実現することができることを示す。
論文 参考訳(メタデータ) (2021-05-26T09:59:56Z) - With a Little Help from My Friends: Nearest-Neighbor Contrastive
Learning of Visual Representations [87.72779294717267]
対比損失で最も近い隣り合わせを正として使用すると、ImageNet分類でパフォーマンスが大幅に向上します。
提案手法が複雑なデータ拡張に依存しないことを実証的に証明する。
論文 参考訳(メタデータ) (2021-04-29T17:56:08Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - Analyzing the Dependency of ConvNets on Spatial Information [81.93266969255711]
本稿では,空間シャッフルとGAP+FCを用いて,学習段階とテスト段階の両方で空間情報を破壊する手法を提案する。
空間情報は、後続の層から小さな性能低下で削除できることを観察する。
論文 参考訳(メタデータ) (2020-02-05T15:22:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。