論文の概要: Panoptic-FlashOcc: An Efficient Baseline to Marry Semantic Occupancy with Panoptic via Instance Center
- arxiv url: http://arxiv.org/abs/2406.10527v1
- Date: Sat, 15 Jun 2024 06:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:02:58.964561
- Title: Panoptic-FlashOcc: An Efficient Baseline to Marry Semantic Occupancy with Panoptic via Instance Center
- Title(参考訳): Panoptic-FlashOcc: インスタンスセンター経由のPanopticによるセマンティックアクシデンシーの効率の良いベースライン
- Authors: Zichen Yu, Changyong Shu, Qianpu Sun, Junjie Linghu, Xiaobao Wei, Jiangyong Yu, Zongdai Liu, Dawei Yang, Hui Li, Yan Chen,
- Abstract要約: 我々は,リアルタイムなパノプティクスの占有を可能にする,単純かつ堅牢な2D機能フレームワークであるPanoptic-FlashOccを提案する。
本手法では,単一ネットワークにおけるセマンティック占有とクラス対応インスタンスクラスタリングを同時に学習する。
Panoptic-FlashOccは、汎視的占有率予測における顕著な成果を示す。
- 参考スコア(独自算出の注目度): 9.290505929115637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic occupancy poses a novel challenge by aiming to integrate instance occupancy and semantic occupancy within a unified framework. However, there is still a lack of efficient solutions for panoptic occupancy. In this paper, we propose Panoptic-FlashOcc, a straightforward yet robust 2D feature framework that enables realtime panoptic occupancy. Building upon the lightweight design of FlashOcc, our approach simultaneously learns semantic occupancy and class-aware instance clustering in a single network, these outputs are jointly incorporated through panoptic occupancy procession for panoptic occupancy. This approach effectively addresses the drawbacks of high memory and computation requirements associated with three-dimensional voxel-level representations. With its straightforward and efficient design that facilitates easy deployment, Panoptic-FlashOcc demonstrates remarkable achievements in panoptic occupancy prediction. On the Occ3D-nuScenes benchmark, it achieves exceptional performance, with 38.5 RayIoU and 29.1 mIoU for semantic occupancy, operating at a rapid speed of 43.9 FPS. Furthermore, it attains a notable score of 16.0 RayPQ for panoptic occupancy, accompanied by a fast inference speed of 30.2 FPS. These results surpass the performance of existing methodologies in terms of both speed and accuracy. The source code and trained models can be found at the following github repository: https://github.com/Yzichen/FlashOCC.
- Abstract(参考訳): パノプティクスの占有は、インスタンスの占有とセマンティックの占有を統一されたフレームワークに統合することを目的として、新しい課題を提起する。
しかしながら、パン光学の占有に対する効率的な解決策がまだ存在しない。
本稿では,Panoptic-FlashOccを提案する。
提案手法は,FlashOccの軽量な設計に基づいて,単一ネットワークにおけるセマンティック占有とクラス認識インスタンスクラスタリングを同時に学習する。
このアプローチは、3次元のボクセルレベルの表現に関連する高メモリと計算要求の欠点を効果的に解決する。
Panoptic-FlashOccは、簡単なデプロイを容易にするシンプルで効率的な設計で、パン光学の占有率予測における顕著な成果を誇示している。
Occ3D-nuScenesベンチマークでは、38.5 RayIoUと29.1 mIoUで、43.9 FPSで動作している。
さらに、パノプティクスの占有率は16.0 RayPQで、高速な推論速度は30.2 FPSである。
これらの結果は、速度と精度の両方の観点から、既存の方法論の性能を上回っている。
ソースコードとトレーニングされたモデルは、以下のgithubリポジトリで見ることができる。
関連論文リスト
- FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文 参考訳(メタデータ) (2023-11-18T15:28:09Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic
Segmentation via Clustering Pseudo Heatmap [9.770808277353128]
本稿では,Panoptic-PHNetと呼ばれる高速かつ高性能なLiDARベースのフレームワークを提案する。
我々は、クラスタリング擬似ヒートマップを新しいパラダイムとして導入し、それに続いて、集中型グループ化モジュールが、効率的なクラスタリングのためにインスタンスセンタを生成する。
バックボーンデザインでは、細粒度のボクセル機能と2D Bird's Eye View (BEV)機能を異なる受容領域に融合し、詳細情報とグローバル情報の両方を利用する。
論文 参考訳(メタデータ) (2022-05-14T08:16:13Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Fully Convolutional Networks for Panoptic Segmentation with Point-based
Supervision [88.71403886207071]
そこで我々は,Panoptic FCNと呼ばれる,完全かつ弱教師付きパノプティカルセグメンテーションのための,概念的にシンプルで強力で効率的なフレームワークを提案する。
我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。
Panoptic FCNは、提案したカーネルジェネレータで各オブジェクトのインスタンスやもののカテゴリをエンコードし、高解像度の機能を直接変換することで予測を生成する。
論文 参考訳(メタデータ) (2021-08-17T15:28:53Z) - Fully Convolutional Networks for Panoptic Segmentation [91.84686839549488]
そこで我々は,Panoptic FCNという概念的,シンプルで,強力で,効率的なパノプティックセグメンテーションフレームワークを提案する。
我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。
Panoptic FCNは、提案されたカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードする。
論文 参考訳(メタデータ) (2020-12-01T18:31:41Z) - PanoNet: Real-time Panoptic Segmentation through Position-Sensitive
Feature Embedding [27.15057692314514]
そこで本研究では,パン光学セグメンテーションのためのセマンティックマスクとインスタンスマスクを同時に生成する,シンプルで高速で柔軟なフレームワークを提案する。
パノネットと呼ばれる我々の手法はクリーンで自然な構造設計を取り入れており、時間を要する検出処理を使わずにセグメンテーションタスクとして問題に対処する。
全体として、PanoNetは高解像度のCityscapes画像の高画質化結果をリアルタイムで得る。
論文 参考訳(メタデータ) (2020-08-01T06:58:35Z) - Semantic Flow for Fast and Accurate Scene Parsing [28.444273169423074]
フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
論文 参考訳(メタデータ) (2020-02-24T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。