論文の概要: You Only Segment Once: Towards Real-Time Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2303.14651v1
- Date: Sun, 26 Mar 2023 07:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 18:19:05.337974
- Title: You Only Segment Once: Towards Real-Time Panoptic Segmentation
- Title(参考訳): 一度だけセグメンテーション:リアルタイムパノプティクスセグメンテーションを目指して
- Authors: Jie Hu, Linyan Huang, Tianhe Ren, Shengchuan Zhang, Rongrong Ji, and
Liujuan Cao
- Abstract要約: YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
- 参考スコア(独自算出の注目度): 68.91492389185744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose YOSO, a real-time panoptic segmentation framework.
YOSO predicts masks via dynamic convolutions between panoptic kernels and image
feature maps, in which you only need to segment once for both instance and
semantic segmentation tasks. To reduce the computational overhead, we design a
feature pyramid aggregator for the feature map extraction, and a separable
dynamic decoder for the panoptic kernel generation. The aggregator
re-parameterizes interpolation-first modules in a convolution-first way, which
significantly speeds up the pipeline without any additional costs. The decoder
performs multi-head cross-attention via separable dynamic convolution for
better efficiency and accuracy. To the best of our knowledge, YOSO is the first
real-time panoptic segmentation framework that delivers competitive performance
compared to state-of-the-art models. Specifically, YOSO achieves 46.4 PQ, 45.6
FPS on COCO; 52.5 PQ, 22.6 FPS on Cityscapes; 38.0 PQ, 35.4 FPS on ADE20K; and
34.1 PQ, 7.1 FPS on Mapillary Vistas. Code is available at
https://github.com/hujiecpp/YOSO.
- Abstract(参考訳): 本稿では,リアルタイムのpanopticセグメンテーションフレームワークであるyosoを提案する。
YOSOは、並列カーネルとイメージ特徴マップ間の動的畳み込みを通じてマスクを予測し、インスタンスとセマンティックセグメンテーションの両方で1回だけセグメンテーションする必要がある。
計算オーバーヘッドを削減するために,特徴マップ抽出のための特徴ピラミッドアグリゲータと,panopticカーネル生成のための分離可能な動的デコーダを設計した。
アグリゲータは補間優先モジュールを畳み込み優先の方法で再パラメータ化し、追加コストなしでパイプラインを大幅に高速化する。
デコーダは分離可能な動的畳み込みを介してマルチヘッドクロスアテンションを実行し、効率と精度を向上させる。
我々の知る限りでは、YOSOは最先端のモデルと比較して競争力のあるパフォーマンスを提供する初めてのリアルタイム・パノプティクス・セグメンテーション・フレームワークです。
具体的には、46.4 pq、45.6 fps、52.5 pq、22.6 fps、38.0 pq、35.4 fps on ade20k、34.1 pq、7.1 fpsである。
コードはhttps://github.com/hujiecpp/YOSO.comで入手できる。
関連論文リスト
- Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen
Convolutional CLIP [28.103358632241104]
我々は、共有されたFrozen Convolutional CLIPバックボーンを使用して、すべてを単一のステージフレームワークに構築することを提案する。
FC-CLIPは、様々なオープン語彙セマンティックセグメンテーションデータセットにまたがって、最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-08-04T17:59:01Z) - Panoptic SegFormer [82.6258003344804]
本稿では,Panoptic-SegFormerを提案する。
ResNet-50のバックボーンでは,COCOテスト-devスプリットで50.0%のPQが得られる。
より強力なPVTv2-B5バックボーンを使用して、Panoptic-SegFormerは、COCO valで54.1%PQと54.4%PQの新たな記録を達成した。
論文 参考訳(メタデータ) (2021-09-08T17:59:12Z) - Fully Convolutional Networks for Panoptic Segmentation [91.84686839549488]
そこで我々は,Panoptic FCNという概念的,シンプルで,強力で,効率的なパノプティックセグメンテーションフレームワークを提案する。
我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。
Panoptic FCNは、提案されたカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードする。
論文 参考訳(メタデータ) (2020-12-01T18:31:41Z) - EOLO: Embedded Object Segmentation only Look Once [0.0]
3つの独立したブランチで概念的にシンプルであり、完全に畳み込み可能で、モバイルや組み込みデバイスに簡単に組み込むことができるアンカーフリーでシングルショットのインスタンスセグメンテーション手法を導入する。
EOLOと呼ばれる本手法では,各画素のインスタンス中心分類と4次元距離回帰により,意味的セグメンテーションを予測し,重なり合うオブジェクト問題を区別するものとして,インスタンス分割問題を再構成する。
ベルとホイッスルがなければ、EOLOはIoU50の下で27.7$%のマスクmAPを獲得し、1080Ti GPU上で30FPSに達し、シングルモデルとシングルスケールのトレーニング/テストが可能である。
論文 参考訳(メタデータ) (2020-03-31T21:22:05Z) - EPSNet: Efficient Panoptic Segmentation Network with Cross-layer
Attention Fusion [5.815742965809424]
高速な推論速度でパノプティカルセグメンテーションタスクに取り組むために,EPSNet(Efficient Panoptic Network)を提案する。
基本的に、EPSNetはプロトタイプマスクとマスク係数の単純な線形結合に基づいてマスクを生成する。
共有プロトタイプの品質を高めるために,我々は"クロスレイヤーアテンション融合モジュール"と呼ばれるモジュールを採用した。
論文 参考訳(メタデータ) (2020-03-23T09:11:44Z) - Unifying Training and Inference for Panoptic Segmentation [111.44758195510838]
本稿では,汎視的セグメンテーションのためのトレーニングと推論のギャップを埋めるエンド・ツー・エンドのネットワークを提案する。
本システムは,ResNet-50のバックボーンで61.4 PQを達成した,人気のストリートシーンデータセットであるCityscapesに新たなレコードを設定する。
当社のネットワークは柔軟にオブジェクトマスクのヒントなしで動作し、両方の設定下で競合的に動作します。
論文 参考訳(メタデータ) (2020-01-14T18:58:24Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。