論文の概要: Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation
- arxiv url: http://arxiv.org/abs/2009.06911v1
- Date: Tue, 15 Sep 2020 08:03:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 05:38:49.741682
- Title: Multi-scale Attention U-Net (MsAUNet): A Modified U-Net Architecture for
Scene Segmentation
- Title(参考訳): マルチスケールアテンションu-net(msaunet) : シーンセグメンテーションのための修正u-netアーキテクチャ
- Authors: Soham Chattopadhyay, Hritam Basak
- Abstract要約: 画像からコンテキスト情報を用いたシーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
このネットワークは、局所的な特徴をグローバルな特徴にマップし、精度を向上し、識別画像領域を強調する。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価した。
- 参考スコア(独自算出の注目度): 1.713291434132985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the growing success of Convolution neural networks (CNN) in the
recent past in the task of scene segmentation, the standard models lack some of
the important features that might result in sub-optimal segmentation outputs.
The widely used encoder-decoder architecture extracts and uses several
redundant and low-level features at different steps and different scales. Also,
these networks fail to map the long-range dependencies of local features, which
results in discriminative feature maps corresponding to each semantic class in
the resulting segmented image. In this paper, we propose a novel multi-scale
attention network for scene segmentation purposes by using the rich contextual
information from an image. Different from the original UNet architecture we
have used attention gates which take the features from the encoder and the
output of the pyramid pool as input and produced out-put is further
concatenated with the up-sampled output of the previous pyramid-pool layer and
mapped to the next subsequent layer. This network can map local features with
their global counterparts with improved accuracy and emphasize on
discriminative image regions by focusing on relevant local features only. We
also propose a compound loss function by optimizing the IoU loss and fusing
Dice Loss and Weighted Cross-entropy loss with it to achieve an optimal
solution at a faster convergence rate. We have evaluated our model on two
standard datasets named PascalVOC2012 and ADE20k and was able to achieve mean
IoU of 79.88% and 44.88% on the two datasets respectively, and compared our
result with the widely known models to prove the superiority of our model over
them.
- Abstract(参考訳): シーンセグメンテーションのタスクにおける近年の畳み込みニューラルネットワーク(CNN)の成功にもかかわらず、標準モデルは、サブ最適セグメンテーション出力をもたらす可能性のある重要な特徴を欠いている。
広く使われているエンコーダ・デコーダアーキテクチャは、異なるステップと異なるスケールで複数の冗長かつ低レベルの特徴を抽出し、利用する。
また、これらのネットワークは、局所的な特徴の長距離依存性をマッピングできず、結果として、各セグメンテーションイメージのセグメンテーションクラスに対応する識別的特徴写像が生成される。
本稿では,画像からのリッチなコンテキスト情報を用いて,シーンセグメンテーションのためのマルチスケールアテンションネットワークを提案する。
従来のunetアーキテクチャとは異なり、エンコーダからの特徴とピラミッドプールの出力を入力とし、出力出力を生成するアテンションゲートは、以前のピラミッドプール層のアップサンプリング出力とさらに結合され、次のレイヤにマッピングされます。
このネットワークは、グローバルな特徴を精度良くマッピングし、関連する特徴のみに焦点をあてることで、識別画像領域を強調する。
また、IoU損失の最適化とDice Lossと重み付きクロスエントロピー損失の融合による複合損失関数を提案し、より高速な収束率で最適解を得る。
我々はPascalVOC2012とADE20kという2つの標準データセットでモデルを評価し、それぞれ79.88%と44.88%の平均IoUを達成した。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Road Segmentation for Remote Sensing Images using Adversarial Spatial
Pyramid Networks [28.32775611169636]
合成画像生成と道路分割に構造化領域適応を適用した新しいモデルを提案する。
マルチレベルの特徴マップから学び、特徴のセマンティクスを改善するために、新しいスケールワイズアーキテクチャが導入された。
我々のモデルは、14.89Mパラメータと86.78B FLOPを持つマサチューセッツのデータセット上で、最先端の78.86 IOUを達成し、4倍少ないFLOPを持つが、より高精度(+3.47% IOU)である。
論文 参考訳(メタデータ) (2020-08-10T11:00:19Z) - MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed
Images [11.047174552053626]
MACU-Netは、マルチスケールのスキップ接続と非対称畳み込みベースのU-Netで、微細解像度のリモートセンシング画像を提供する。
本設計では,(1)低レベル・高レベルの特徴写像に含まれる意味的特徴と,(2)非対称な畳み込みブロックは,標準畳み込み層の特徴表現と特徴抽出能力を強化する。
2つのリモートセンシングデータセットで行った実験では、提案したMACU-NetがU-Net、U-NetPPL、U-Net 3+、その他のベンチマークアプローチを超越していることが示されている。
論文 参考訳(メタデータ) (2020-07-26T08:56:47Z) - On the Texture Bias for Few-Shot CNN Segmentation [21.349705243254423]
畳み込みニューラルネットワーク(CNN)は、視覚認識タスクを実行するために形状によって駆動される。
最近の証拠は、CNNのテクスチャバイアスが、大きなラベル付きトレーニングデータセットで学習するときに、より高いパフォーマンスのモデルを提供することを示している。
本稿では,特徴空間内の高周波局所成分を減衰させるために,ガウス差分(DoG)の集合を統合する新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-03-09T11:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。