論文の概要: Dilated Convolutions with Lateral Inhibitions for Semantic Image
Segmentation
- arxiv url: http://arxiv.org/abs/2006.03708v5
- Date: Wed, 19 Jan 2022 13:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:12:05.585112
- Title: Dilated Convolutions with Lateral Inhibitions for Semantic Image
Segmentation
- Title(参考訳): 意味的画像分割のための側方抑制による拡張畳み込み
- Authors: Yujiang Wang, Mingzhi Dong, Jie Shen, Yiming Lin, Maja Pantic
- Abstract要約: 拡張畳み込みはディープセマンティックセグメンテーションモデルで広く使われている。
しかし、拡張畳み込みフィルタは意味論的に意味のある輪郭上の画素についての位置的知識を持っていない。
本稿では,これらの制限を克服するために,LI-Convsを用いた拡張畳み込み法を提案する。
- 参考スコア(独自算出の注目度): 47.15129679400581
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dilated convolutions are widely used in deep semantic segmentation models as
they can enlarge the filters' receptive field without adding additional weights
nor sacrificing spatial resolution. However, as dilated convolutional filters
do not possess positional knowledge about the pixels on semantically meaningful
contours, they could lead to ambiguous predictions on object boundaries. In
addition, although dilating the filter can expand its receptive field, the
total number of sampled pixels remains unchanged, which usually comprises a
small fraction of the receptive field's total area. Inspired by the Lateral
Inhibition (LI) mechanisms in human visual systems, we propose the dilated
convolution with lateral inhibitions (LI-Convs) to overcome these limitations.
Introducing LI mechanisms improves the convolutional filter's sensitivity to
semantic object boundaries. Moreover, since LI-Convs also implicitly take the
pixels from the laterally inhibited zones into consideration, they can also
extract features at a denser scale. By integrating LI-Convs into the Deeplabv3+
architecture, we propose the Lateral Inhibited Atrous Spatial Pyramid Pooling
(LI-ASPP), the Lateral Inhibited MobileNet-V2 (LI-MNV2) and the Lateral
Inhibited ResNet (LI-ResNet). Experimental results on three benchmark datasets
(PASCAL VOC 2012, CelebAMask-HQ and ADE20K) show that our LI-based segmentation
models outperform the baseline on all of them, thus verify the effectiveness
and generality of the proposed LI-Convs.
- Abstract(参考訳): 拡張畳み込みは深いセマンティックセグメンテーションモデルで広く使われており、フィルターの受容領域を増量したり、空間分解能を犠牲にすることなく拡大することができる。
しかし、拡張畳み込みフィルタは意味的に意味のある輪郭上のピクセルの位置的知識を持っていないため、オブジェクト境界の曖昧な予測につながる可能性がある。
加えて、フィルタの拡張は受容野を拡大することができるが、サンプリングされた画素の総数は変わらず残っており、通常は受容野の総面積のごく一部を占める。
ヒトの視覚系における側方抑制(LI)機構に触発されて、これらの制限を克服するために、側方抑制(LI-Convs)を伴う拡張畳み込みを提案する。
LI機構の導入により、畳み込みフィルタのセマンティックオブジェクト境界に対する感度が向上する。
さらに、LI-Convsは、横に抑制されたゾーンの画素も暗黙的に考慮するので、より密集したスケールで特徴を抽出することもできる。
本稿では,li-conv を deeplabv3+ アーキテクチャに組み込むことにより,横型阻害atrous spatial pyramid pooling (li-aspp),横型抑制mobilenet-v2 (li-mnv2) および横型抑制型resnet (li-resnet) を提案する。
3つのベンチマークデータセット(pascal voc 2012, celebamask-hq, ade20k)における実験結果から, liベースのセグメンテーションモデルは, 提案するli-convの有効性と汎用性を検証することができる。
関連論文リスト
- Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation [79.66299178949257]
オープンボキャブラリセマンティックセグメンテーションは、画像中の各ピクセルに任意のテキスト記述をラベル付けしようとする。
視覚言語基盤モデル、特にCLIPは、オープン語彙能力を取得するための強力なツールとして登場した。
H-CLIPは、CLIPの総パラメータの約4%を更新するだけで、新しいSOTAオープン語彙セマンティックセマンティックセマンティクス結果を達成する。
論文 参考訳(メタデータ) (2024-05-29T07:41:34Z) - Fourier Boundary Features Network with Wider Catchers for Glass Segmentation [12.465008923418406]
反射面と透過ガラスのセグメンテーションを制約する新しい手法を提案する。
提案手法はガラス画像分割における最先端技術 (SOTA) 法と比較して, セグメンテーション性能が向上する。
論文 参考訳(メタデータ) (2024-05-15T15:52:27Z) - Nonparametric Classification on Low Dimensional Manifolds using
Overparameterized Convolutional Residual Networks [82.03459331544737]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。
我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文 参考訳(メタデータ) (2023-07-04T11:08:03Z) - A bioinspired three-stage model for camouflaged object detection [8.11866601771984]
本稿では,1回の繰り返しで粗い部分分割を可能にする3段階モデルを提案する。
本モデルでは, 3つのデコーダを用いて, サブサンプル特徴, 収穫特徴, および高解像度のオリジナル特徴を逐次処理する。
我々のネットワークは、不要な複雑さを伴わずに最先端のCNNベースのネットワークを上回る。
論文 参考訳(メタデータ) (2023-05-22T02:01:48Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Object-aware Monocular Depth Prediction with Instance Convolutions [72.98771405534937]
本稿では,特徴集合を避けるために明示的に調整された新しい畳み込み演算子を提案する。
提案手法は,部分ごとの深度をスーパーピクセルで推定する。
NYUv2とiBimsデータセットに対する我々の評価は、インスタンスの畳み込みの優位性を明確に示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:48Z) - Texture-enhanced Light Field Super-resolution with Spatio-Angular
Decomposition Kernels [24.266548097679973]
光電場超合成のための分解カーネルの概念を提案する。
特に,様々な部分空間の分解操作を,一連の分解カーネルに体系的に統一する。
提案したDKNetは、2x, 3x, 4x LFSRスケールで1.35dB, 0.83テクスチャ, 1.80dB PSNRの大幅な改善を実現するために実験的に検証されている。
論文 参考訳(メタデータ) (2021-11-07T12:47:12Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。