論文の概要: Revisiting Multi-Scale Feature Fusion for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2203.12683v1
- Date: Wed, 23 Mar 2022 19:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 12:39:42.016077
- Title: Revisiting Multi-Scale Feature Fusion for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのためのマルチスケール特徴融合の再検討
- Authors: Tianjian Meng, Golnaz Ghiasi, Reza Mahjorian, Quoc V. Le, Mingxing Tan
- Abstract要約: 本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
- 参考スコア(独自算出の注目度): 90.32746095413447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is commonly believed that high internal resolution combined with expensive
operations (e.g. atrous convolutions) are necessary for accurate semantic
segmentation, resulting in slow speed and large memory usage. In this paper, we
question this belief and demonstrate that neither high internal resolution nor
atrous convolutions are necessary. Our intuition is that although segmentation
is a dense per-pixel prediction task, the semantics of each pixel often depend
on both nearby neighbors and far-away context; therefore, a more powerful
multi-scale feature fusion network plays a critical role. Following this
intuition, we revisit the conventional multi-scale feature space (typically
capped at P5) and extend it to a much richer space, up to P9, where the
smallest features are only 1/512 of the input size and thus have very large
receptive fields. To process such a rich feature space, we leverage the recent
BiFPN to fuse the multi-scale features. Based on these insights, we develop a
simplified segmentation model, named ESeg, which has neither high internal
resolution nor expensive atrous convolutions. Perhaps surprisingly, our simple
method can achieve better accuracy with faster speed than prior art across
multiple datasets. In real-time settings, ESeg-Lite-S achieves 76.0% mIoU on
CityScapes [12] at 189 FPS, outperforming FasterSeg [9] (73.1% mIoU at 170
FPS). Our ESeg-Lite-L runs at 79 FPS and achieves 80.1% mIoU, largely closing
the gap between real-time and high-performance segmentation models.
- Abstract(参考訳): 高い内部分解能と高価な操作(例えばatrous convolutions)が組み合わさって正確なセマンティックセグメンテーションが必要と考えられており、結果として速度が遅く、メモリ使用量も大きくなる。
本稿では,この信念に疑問を呈し,高い内部分解能や複雑な畳み込みは不要であることを実証する。
我々の直感では、セグメンテーションはピクセルごとの密度の高い予測タスクであるが、各ピクセルのセマンティクスは近隣と遠方の両方に依存することが多いため、より強力なマルチスケール特徴融合ネットワークが重要な役割を果たす。
この直観に従い、従来の多スケール特徴空間(典型的にはp5)を再検討し、よりリッチな空間まで拡張し、最小の特徴は入力サイズの1/512に過ぎず、非常に大きな受容場を持つp9まで拡張する。
このようなリッチな特徴空間を処理するために、最近のBiFPNを活用してマルチスケールな特徴を融合する。
これらの知見に基づいて,高内部分解能も高価なアトラス畳み込みも持たない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
意外なことに、我々の単純な手法は、複数のデータセットにわたる先行技術よりも高速で精度を向上できる。
リアルタイム設定では、ESeg-Lite-SはCityScapes [12]で76.0% mIoUを189 FPSで達成し、FasterSeg [9](73.1% mIoUで170 FPS)を上回っている。
我々のESeg-Lite-Lは79 FPSで動作し、80.1% mIoUを達成した。
関連論文リスト
- Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - AttaNet: Attention-Augmented Network for Fast and Accurate Scene Parsing [12.409365458889082]
AttaNet(Attention-Augmented Network)と呼ばれる新しいモデルを提案し、グローバルコンテキストとマルチレベルセマンティクスの両方をキャプチャする。
AttaNet は Strip Attention Module (SAM) と Attention Fusion Module (AFM) の2つの主要なモジュールで構成されている。
論文 参考訳(メタデータ) (2021-03-10T08:38:29Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z) - BiSeNet V2: Bilateral Network with Guided Aggregation for Real-time
Semantic Segmentation [118.46210049742993]
バイラテラル空間ネットワーク(BiSeNet V2)と呼ばれる,速度と精度のトレードオフが良好である効率的なアーキテクチャを提案する。
2,048x1の入力に対して、我々はCityscapesテストセットで72.6%の平均IoUを1つのNVIDIA GeForce 1080 Tiカードで156 FPSで達成した。
論文 参考訳(メタデータ) (2020-04-05T10:26:38Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。