論文の概要: MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2312.06052v1
- Date: Mon, 11 Dec 2023 00:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:16:01.134982
- Title: MaskConver: Revisiting Pure Convolution Model for Panoptic Segmentation
- Title(参考訳): maskconver: パンオプティカルセグメンテーションのための純粋畳み込みモデルの再検討
- Authors: Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou,
Chaochao Yan, Liang-Chieh Chen, Yeqing Li
- Abstract要約: 我々は純粋な畳み込みモデルを再検討し、MaskConverという新しい汎光学アーキテクチャを提案する。
MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。
本稿では,畳み込みモデルと変圧器モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。
- 参考スコア(独自算出の注目度): 17.627376199097185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, transformer-based models have dominated panoptic
segmentation, thanks to their strong modeling capabilities and their unified
representation for both semantic and instance classes as global binary masks.
In this paper, we revisit pure convolution model and propose a novel panoptic
architecture named MaskConver. MaskConver proposes to fully unify things and
stuff representation by predicting their centers. To that extent, it creates a
lightweight class embedding module that can break the ties when multiple
centers co-exist in the same location. Furthermore, our study shows that the
decoder design is critical in ensuring that the model has sufficient context
for accurate detection and segmentation. We introduce a powerful ConvNeXt-UNet
decoder that closes the performance gap between convolution- and
transformerbased models. With ResNet50 backbone, our MaskConver achieves 53.6%
PQ on the COCO panoptic val set, outperforming the modern convolution-based
model, Panoptic FCN, by 9.3% as well as transformer-based models such as
Mask2Former (+1.7% PQ) and kMaX-DeepLab (+0.6% PQ). Additionally, MaskConver
with a MobileNet backbone reaches 37.2% PQ, improving over Panoptic-DeepLab by
+6.4% under the same FLOPs/latency constraints. A further optimized version of
MaskConver achieves 29.7% PQ, while running in real-time on mobile devices. The
code and model weights will be publicly available
- Abstract(参考訳): 近年、トランスフォーマーベースのモデルは、強力なモデリング能力とセマンティッククラスとインスタンスクラスの両方をグローバルバイナリマスクとして統一表現することで、パンオプティカルセグメンテーションを支配している。
本稿では,純粋畳み込みモデルを再検討し,新しいpanoptic architectureであるmaskconverを提案する。
MaskConverは、センターを予測することによって、物や物の表現を完全に統一することを提案する。
その範囲では、複数のセンターが同じ場所に共存しているときに結合を壊す軽量なクラス埋め込みモジュールを作成します。
さらに本研究では,デコーダの設計が,モデルが正確な検出とセグメンテーションに十分なコンテキストを持つことを保証する上で重要であることを示す。
本稿では,畳み込みモデルと変換モデルのパフォーマンスギャップを埋める強力なConvNeXt-UNetデコーダを提案する。
ResNet50のバックボーンでは、我々のMaskConverはCOCOのパノプティクスvalセット上で53.6%のPQを達成し、モダンな畳み込みベースのモデルであるPanoptic FCNを9.3%上回り、Mask2Former (+1.7% PQ)やkMaX-DeepLab (+0.6% PQ)のようなトランスフォーマーベースのモデルも上回っている。
さらに、MobileNetのバックボーンを持つMaskConverは37.2%のPQに達し、同じFLOP/レイテンシ制約の下でPanoptic-DeepLabを+6.4%改善した。
MaskConverのさらなる最適化版は、モバイルデバイスでリアルタイムに実行しながら29.7%のPQを達成した。
コードとモデルの重み付けが公開される予定だ
関連論文リスト
- Pre-training Point Cloud Compact Model with Partial-aware Reconstruction [51.403810709250024]
本稿では, 部分認識型textbfReconstruction を用いた, Point-CPR という事前学習型クラウド圧縮モデルを提案する。
我々のモデルは様々なタスクにおいて強い性能を示し、特にパラメータの2%しか持たない主要なMPMベースモデルであるPointGPT-Bを上回っている。
論文 参考訳(メタデータ) (2024-07-12T15:18:14Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - kMaX-DeepLab: k-means Mask Transformer [41.104116145904825]
既存のトランスフォーマーベースの視覚モデルは、単にNLPからアイデアを借りているだけである。
従来のk-meansクラスタリングアルゴリズムにヒントを得て,セグメント化タスクのためのk-means Mask Xformerを開発した。
私たちのkMaX-DeepLabは、58.0% PQのCOCO valセット、68.4% PQのCityscapes valセット、44.0% AP、83.5% mIoUの最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-08T17:59:01Z) - ConvMAE: Masked Convolution Meets Masked Autoencoders [65.15953258300958]
機能事前トレーニングとマルチスケールハイブリッド畳み込み変換アーキテクチャのためのマスク付き自動エンコーディングは、ViTの可能性をさらに解き放つことができる。
我々のConvMAEフレームワークは、マスクの自動符号化方式により、マルチスケールのハイブリッド畳み込み変換器がより識別的な表現を学習できることを実証している。
事前訓練したConvMAEモデルに基づいて、ConvMAE-Baseは画像Net-1Kの微調整精度をMAE-Baseと比較して1.4%改善する。
論文 参考訳(メタデータ) (2022-05-08T15:12:19Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。