論文の概要: EfficientPS: Efficient Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2004.02307v3
- Date: Mon, 1 Feb 2021 09:33:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 12:35:55.652205
- Title: EfficientPS: Efficient Panoptic Segmentation
- Title(参考訳): efficientps:効率的なpanopticセグメンテーション
- Authors: Rohit Mohan, Abhinav Valada
- Abstract要約: セマンティックにリッチなマルチスケール機能を効率的にエンコードし、融合する効率的パノプティクス(Efficient Panoptic, EfficientPS)アーキテクチャを導入する。
セマンティックヘッドは、細部とコンテキストの特徴を整合的に集約し、インスタンスヘッドとしてMask R-CNNの新たな変種を組み込む。
また、一般的なKITTIベンチマークのためのパノビュータアノテーションを含むKITTIパノビュータセグメンテーションデータセットについても紹介する。
- 参考スコア(独自算出の注目度): 13.23676270963484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the scene in which an autonomous robot operates is critical for
its competent functioning. Such scene comprehension necessitates recognizing
instances of traffic participants along with general scene semantics which can
be effectively addressed by the panoptic segmentation task. In this paper, we
introduce the Efficient Panoptic Segmentation (EfficientPS) architecture that
consists of a shared backbone which efficiently encodes and fuses semantically
rich multi-scale features. We incorporate a new semantic head that aggregates
fine and contextual features coherently and a new variant of Mask R-CNN as the
instance head. We also propose a novel panoptic fusion module that congruously
integrates the output logits from both the heads of our EfficientPS
architecture to yield the final panoptic segmentation output. Additionally, we
introduce the KITTI panoptic segmentation dataset that contains panoptic
annotations for the popularly challenging KITTI benchmark. Extensive
evaluations on Cityscapes, KITTI, Mapillary Vistas and Indian Driving Dataset
demonstrate that our proposed architecture consistently sets the new
state-of-the-art on all these four benchmarks while being the most efficient
and fast panoptic segmentation architecture to date.
- Abstract(参考訳): 自律ロボットが行動する場面を理解することは、その能力的機能にとって重要である。
このようなシーン理解は、パノプティックセグメンテーションタスクによって効果的に対処できる一般的なシーンセマンティクスとともに、交通参加者のインスタンスを認識する必要がある。
本稿では,意味的にリッチなマルチスケール機能を効率的にエンコードし融合する共有バックボーンからなる効率的なpanoptic segmentation(efficiantps)アーキテクチャを提案する。
我々は、細部および文脈的特徴を整合的に集約する新しいセマンティックヘッドと、インスタンスヘッドとしてMask R-CNNの新しい変種を組み込んだ。
また,本実装では,両ヘッドからの出力ロジットを総合的に統合し,最終的なpanopticセグメンテーション出力を生成する新しいpanoptic fusionモジュールを提案する。
さらに、一般的なKITTIベンチマークのためのパノビュータアノテーションを含むKITTIパノビュータセグメンテーションデータセットについても紹介する。
cityscapes、kitti、mapillary vistas、およびindian driving datasetに関する広範な評価は、我々の提案するアーキテクチャが、これまでで最も効率的で高速なpanopticセグメンテーションアーキテクチャでありながら、これら4つのベンチマークすべてに一貫して最新技術を設定していることを示している。
関連論文リスト
- PEM: Prototype-based Efficient MaskFormer for Image Segmentation [10.795762739721294]
最近のトランスベースのアーキテクチャは、画像セグメンテーションの分野で印象的な成果を上げている。
複数のセグメンテーションタスクで動作可能な効率的なトランスフォーマーベースのアーキテクチャであるPEM(Prototype-based Efficient MaskFormer)を提案する。
論文 参考訳(メタデータ) (2024-02-29T18:21:54Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - EDAPS: Enhanced Domain-Adaptive Panoptic Segmentation [93.25977558780896]
本研究では,パノプティカルネットワークの設計について検討し,ドメイン適応型パノプティカルセグメンテーションのための新しいアーキテクチャ(EDAPS)を提案する。
EDAPSは、SynTHIA-to-Cityscapesでは20%、より困難なSynTHIA-to-Mapillary Vistasでは72%という大きなマージンで、パンプトセグメンテーションUDAの最先端性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-04-27T15:51:19Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーション (amodal panoptic segmentation) と呼ばれる新しいタスクを定式化し提案する。
このタスクの目的は、オブジェクトクラスの可視領域のピクセル単位の意味的セグメンテーションラベルを同時に予測することである。
本稿では,この課題に対処するための第一歩として,新しいアモーダル・パノプティクス・セグメンテーション・ネットワーク(APSNet)を提案する。
論文 参考訳(メタデータ) (2022-02-23T14:41:59Z) - Towards holistic scene understanding: Semantic segmentation and beyond [2.7920304852537536]
この論文は、視覚的なシーン理解に対処し、セグメンテーション性能と一般化、ネットワークのトレーニング効率、全体的理解を高める。
まず,街路シーンの文脈におけるセマンティックセグメンテーションと,各種データセットの組み合わせによるセマンティックセグメンテーションネットワークについて検討する。
第2章では、単一の畳み込みバックボーン上に階層型分類器のフレームワークを設計し、ピクセルラベル付きデータセットの組み合わせでエンドツーエンドにトレーニングする。
第3章では,画素単位の監督に代えて,ボックスレベルとイメージレベルを境界としたトレーニングを行うための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-16T19:18:11Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - Robust Vision Challenge 2020 -- 1st Place Report for Panoptic
Segmentation [13.23676270963484]
私たちのネットワークは、最先端のEfficientPSアーキテクチャの軽量版です。
提案した共有バックボーンと改良されたEfficientNet-B5モデルをエンコーダとして,続いて2方向FPNで意味的にリッチなマルチスケール機能について学習する。
提案するパン光学融合モジュールは,各頭部のロジットを適応的に融合させ,パン光学分割出力を出力する。
論文 参考訳(メタデータ) (2020-08-23T21:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。