論文の概要: Robust Vision Challenge 2020 -- 1st Place Report for Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2008.10112v1
- Date: Sun, 23 Aug 2020 21:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 03:04:44.381335
- Title: Robust Vision Challenge 2020 -- 1st Place Report for Panoptic
Segmentation
- Title(参考訳): ロバスト・ヴィジョン・チャレンジ2020 -- 第1回パンオプティカルセグメンテーション報告
- Authors: Rohit Mohan and Abhinav Valada
- Abstract要約: 私たちのネットワークは、最先端のEfficientPSアーキテクチャの軽量版です。
提案した共有バックボーンと改良されたEfficientNet-B5モデルをエンコーダとして,続いて2方向FPNで意味的にリッチなマルチスケール機能について学習する。
提案するパン光学融合モジュールは,各頭部のロジットを適応的に融合させ,パン光学分割出力を出力する。
- 参考スコア(独自算出の注目度): 13.23676270963484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we present key details of our winning panoptic
segmentation architecture EffPS_b1bs4_RVC. Our network is a lightweight version
of our state-of-the-art EfficientPS architecture that consists of our proposed
shared backbone with a modified EfficientNet-B5 model as the encoder, followed
by the 2-way FPN to learn semantically rich multi-scale features. It consists
of two task-specific heads, a modified Mask R-CNN instance head and our novel
semantic segmentation head that processes features of different scales with
specialized modules for coherent feature refinement. Finally, our proposed
panoptic fusion module adaptively fuses logits from each of the heads to yield
the panoptic segmentation output. The Robust Vision Challenge 2020 benchmarking
results show that our model is ranked #1 on Microsoft COCO, VIPER and WildDash,
and is ranked #2 on Cityscapes and Mapillary Vistas, thereby achieving the
overall rank #1 for the panoptic segmentation task.
- Abstract(参考訳): 本技術報告では,勝利したパノプティックセグメンテーションアーキテクチャ EffPS_b1bs4_RVC について述べる。
提案する共有バックボーンをエンコーダとして修正した efficientnet-b5 モデルと,セマンティクス的にリッチなマルチスケール機能を学ぶための 2-way fpn とを組み合わせた,最先端の efficientps アーキテクチャの軽量版です。
タスク固有の2つのヘッド、修正されたMask R-CNNインスタンスヘッドと、コヒーレントな特徴改善のための特別なモジュールで異なるスケールの特徴を処理する新しいセマンティックセグメンテーションヘッドで構成されている。
最後に,提案するpanoptic fusionモジュールは,各ヘッドからロジットを適応的に融合してpanoptic segmentation出力を生成する。
Robust Vision Challenge 2020ベンチマーク結果によると、当社のモデルはMicrosoft COCO、VIPER、WildDashで第1位、Cityscapes、Mapillary Vistasで第2位、パン光学セグメンテーションタスクで第1位にランクされている。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic
Segmentation via Clustering Pseudo Heatmap [9.770808277353128]
本稿では,Panoptic-PHNetと呼ばれる高速かつ高性能なLiDARベースのフレームワークを提案する。
我々は、クラスタリング擬似ヒートマップを新しいパラダイムとして導入し、それに続いて、集中型グループ化モジュールが、効率的なクラスタリングのためにインスタンスセンタを生成する。
バックボーンデザインでは、細粒度のボクセル機能と2D Bird's Eye View (BEV)機能を異なる受容領域に融合し、詳細情報とグローバル情報の両方を利用する。
論文 参考訳(メタデータ) (2022-05-14T08:16:13Z) - Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーション (amodal panoptic segmentation) と呼ばれる新しいタスクを定式化し提案する。
このタスクの目的は、オブジェクトクラスの可視領域のピクセル単位の意味的セグメンテーションラベルを同時に予測することである。
本稿では,この課題に対処するための第一歩として,新しいアモーダル・パノプティクス・セグメンテーション・ネットワーク(APSNet)を提案する。
論文 参考訳(メタデータ) (2022-02-23T14:41:59Z) - 7th AI Driving Olympics: 1st Place Report for Panoptic Tracking [6.226227982115869]
私たちのアーキテクチャは、NeurIPS 2021で開かれた第7回AI運転オリンピックで、パノプティクストラッキングの挑戦に勝ちました。
提案手法では,3つの連続的に蓄積したスキャンを用いて局所的に一貫した汎視追跡IDを推定し,同時にスキャン間の重なりを推定し,与えられたシーケンスに対して一貫した一貫した汎視追跡IDを推定する。
NeurIPS 2021の第7回AI運転オリンピックのベンチマーク結果は、私たちのモデルは、Panoptic nuScenesデータセットの汎視追跡タスクにおいて、第1位にランクされていることを示している。
論文 参考訳(メタデータ) (2021-12-09T20:52:28Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - SG-Net: Spatial Granularity Network for One-Stage Video Instance
Segmentation [7.544917072241684]
ビデオインスタンスセグメンテーション(VIS)はコンピュータビジョンにおける新しい重要なタスクである。
VISのための一段階空間粒度ネットワーク(SG-Net)を提案する。
提案手法は精度と推論速度の両方で性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-03-18T14:31:15Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z) - EfficientPS: Efficient Panoptic Segmentation [13.23676270963484]
セマンティックにリッチなマルチスケール機能を効率的にエンコードし、融合する効率的パノプティクス(Efficient Panoptic, EfficientPS)アーキテクチャを導入する。
セマンティックヘッドは、細部とコンテキストの特徴を整合的に集約し、インスタンスヘッドとしてMask R-CNNの新たな変種を組み込む。
また、一般的なKITTIベンチマークのためのパノビュータアノテーションを含むKITTIパノビュータセグメンテーションデータセットについても紹介する。
論文 参考訳(メタデータ) (2020-04-05T20:15:59Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。