論文の概要: RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2305.01255v2
- Date: Fri, 4 Aug 2023 09:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 15:49:40.540429
- Title: RT-K-Net: Revisiting K-Net for Real-Time Panoptic Segmentation
- Title(参考訳): RT-K-Net:リアルタイムパノプティクスセグメンテーションのためのK-Netの再検討
- Authors: Markus Sch\"on, Michael Buchholz, Klaus Dietmayer
- Abstract要約: アーキテクチャやトレーニング,推論の手順に重要な変更を加えることで,レイテンシを大幅に削減し,パフォーマンスを向上する。
得られたRT-K-Netは、リアルタイム・パノプティクス・セグメンテーションのための最先端性能を新たに設定する。
Cityscapesでは、RT-K-Netは60.2 % PQに達し、フル解像度の1024x2048ピクセル画像に対して平均32msとなる。
Mapillary Vistasでは、RT-K-Netが33.2 % PQに達し、平均推定時間は69msである。
- 参考スコア(独自算出の注目度): 10.438741209852209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic segmentation is one of the most challenging scene parsing tasks,
combining the tasks of semantic segmentation and instance segmentation. While
much progress has been made, few works focus on the real-time application of
panoptic segmentation methods. In this paper, we revisit the recently
introduced K-Net architecture. We propose vital changes to the architecture,
training, and inference procedure, which massively decrease latency and improve
performance. Our resulting RT-K-Net sets a new state-of-the-art performance for
real-time panoptic segmentation methods on the Cityscapes dataset and shows
promising results on the challenging Mapillary Vistas dataset. On Cityscapes,
RT-K-Net reaches 60.2 % PQ with an average inference time of 32 ms for full
resolution 1024x2048 pixel images on a single Titan RTX GPU. On Mapillary
Vistas, RT-K-Net reaches 33.2 % PQ with an average inference time of 69 ms.
Source code is available at https://github.com/markusschoen/RT-K-Net.
- Abstract(参考訳): panoptic segmentationは、セマンティックセグメンテーションとインスタンスセグメンテーションのタスクを組み合わせた、最も難しいシーン解析タスクの1つです。
多くの進展が見られたが、パン光学セグメンテーション法のリアルタイム適用に焦点を当てた研究はほとんどない。
本稿では,最近導入されたK-Netアーキテクチャを再考する。
我々は,遅延を大幅に削減し,性能を向上させるアーキテクチャ,トレーニング,推論手順の大幅な変更を提案する。
得られたRT-K-Netは、Cityscapesデータセット上でリアルタイムのパノプティクスセグメンテーション手法のための新しい最先端のパフォーマンスを設定し、挑戦的なMapillary Vistasデータセットで有望な結果を示す。
都市景観では、rt-k-netは60.2 %のpqに達し、titan rtx gpu上のフル解像度1024x2048ピクセル画像の平均推定時間は32msである。
Mapillary Vistasでは、RT-K-Netが平均推算時間69msで33.2%のPQに達している。
関連論文リスト
- You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - Video K-Net: A Simple, Strong, and Unified Baseline for Video
Segmentation [85.08156742410527]
Video K-Netは、エンドツーエンドのビデオパノラマセグメンテーションのためのフレームワークである。
学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する。
Video K-Netが"things"と"stuff"を同時にセグメンテーションし追跡することを学ぶ
論文 参考訳(メタデータ) (2022-04-10T11:24:47Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Feature Reuse and Fusion for Real-time Semantic segmentation [0.0]
高分解能を維持しながら速度を上げる方法は議論され解決された問題である。
従来の設計経験に基づいて軽量ネットワークを設計し、最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに到達したいと考えています。
論文 参考訳(メタデータ) (2021-05-27T06:47:02Z) - Rethinking BiSeNet For Real-time Semantic Segmentation [6.622485130017622]
BiSeNetはリアルタイムセグメンテーションのための人気のある2ストリームネットワークであることが証明されている。
本稿では,stdc( short-term dense concatenate network)と呼ばれる新しい構造を提案する。
論文 参考訳(メタデータ) (2021-04-27T13:49:47Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - RoadNet-RT: High Throughput CNN Architecture and SoC Design for
Real-Time Road Segmentation [9.248369087525056]
本稿では,道路分割のためのロードネット-RTを提案する。
GTX 1080 GPU上で動作する場合、KITTIロードセグメンテーションタスクのテストセットで90.33%のMaxFスコアを達成している。
システムのスループットは毎秒327.9フレームに達し、画像サイズは1216x176である。
論文 参考訳(メタデータ) (2020-06-13T14:12:23Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。