論文の概要: Improving Panoptic Segmentation at All Scales
- arxiv url: http://arxiv.org/abs/2012.07717v2
- Date: Tue, 23 Mar 2021 13:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:28:19.563010
- Title: Improving Panoptic Segmentation at All Scales
- Title(参考訳): 全スケールでのパノプティカルセグメンテーションの改善
- Authors: Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder
- Abstract要約: Cropベースのトレーニング戦略は、GPUメモリ消費からトレーニング解像度を分離する。
新規な作物認識バウンディングボックス回帰損失(CABB損失)を提案する。
挑戦的なMapillary Vistas(MVD)、Indian Driving、Cityscapesデータセットで最新の結果が得られます。
- 参考スコア(独自算出の注目度): 22.944205711622736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crop-based training strategies decouple training resolution from GPU memory
consumption, allowing the use of large-capacity panoptic segmentation networks
on multi-megapixel images. Using crops, however, can introduce a bias towards
truncating or missing large objects. To address this, we propose a novel
crop-aware bounding box regression loss (CABB loss), which promotes predictions
to be consistent with the visible parts of the cropped objects, while not
over-penalizing them for extending outside of the crop. We further introduce a
novel data sampling and augmentation strategy which improves generalization
across scales by counteracting the imbalanced distribution of object sizes.
Combining these two contributions with a carefully designed, top-down panoptic
segmentation architecture, we obtain new state-of-the-art results on the
challenging Mapillary Vistas (MVD), Indian Driving and Cityscapes datasets,
surpassing the previously best approach on MVD by +4.5% PQ and +5.2% mAP.
- Abstract(参考訳): クロップベースのトレーニング戦略は、トレーニング解決をGPUメモリ消費から切り離し、マルチメガピクセルイメージに大容量の汎光学セグメントネットワークを使用できる。
しかし、作物を使うことは大きな物体の切り離しや欠落にバイアスをもたらす可能性がある。
そこで本研究では,作物の外側に延ばすために過剰にペナルティを与えることなく,切り取られた物体の目に見える部分と一致した予測を促進させる新しい作物認識バウンディングボックスレグレッションロス(cabbロス)を提案する。
さらに,オブジェクトサイズの不均衡な分布に対抗して,スケール全体の一般化を改善する新しいデータサンプリング・拡張戦略も導入する。
これら2つの貢献と、慎重に設計されたトップダウンのパンオプティカルセグメンテーションアーキテクチャを組み合わせることで、従来のmvdのアプローチを+4.5%pqと+5.2%のmapで上回る、挑戦的なmapillary vistas(mvd)、インドの運転および都市景観データセットに関する最新の結果が得られる。
関連論文リスト
- Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for
Semi-supervised Polyp Segmentation [52.06525450636897]
大腸癌の早期診断と治療において, 自動ポリープセグメンテーションが重要な役割を担っている。
既存の手法は、完全に教師されたトレーニングに大きく依存しており、大量のラベル付きデータと時間を要するピクセル単位のアノテーションを必要とする。
大腸内視鏡画像からの半教師付きポリープ(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learningフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and
Multi-view Geometric Consistency Perception [60.23832277827669]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元する傾向がある。
水平深度と比表現に適した教師なし適応手法を提案する。
また,決定レベルのレイアウト解析のための最適化手法と,特徴レベルのマルチビューアグリゲーションのための1次元コストボリューム構築手法も導入する。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation
for Panoramic Semantic Segmentation [5.352137021024213]
この目的は、等方射影(ERP)の均一分布画素のスタイル不均一性と歪み問題に起因する領域ギャップに対処することである。
パノラマ的セマンティックセグメンテーションの歪み問題に効果的に対処できる新しいUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-10T10:47:12Z) - Intra-Batch Supervision for Panoptic Segmentation on High-Resolution
Images [4.314956204483074]
統一パノプティカルセグメンテーション法は、いくつかのデータセットで最先端の結果を達成している。
高分解能データセット上でこれらの結果を達成するために、これらの手法は作物ベースの訓練を適用している。
作物をベースとした訓練は一般的に有利だが、有害な副作用もある。
Intra-Batch Supervision (IBS) を提案する。
論文 参考訳(メタデータ) (2023-04-17T12:48:36Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Split-Merge Pooling [36.2980225204665]
スプリット・マージ・プールはサブサンプリングなしで空間情報を保存するために導入された。
本研究では,CityscapesとGTA-5データセットから得られた大規模画像の高密度なセマンティックセマンティックセマンティックセグメンテーションについて検討した。
論文 参考訳(メタデータ) (2020-06-13T23:20:30Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z) - Hierarchical Multi-Scale Attention for Semantic Segmentation [29.85420133970138]
マルチスケール予測を組み合わせ,注目に基づくアプローチを提案する。
特定のスケールでの予測は、特定の障害モードを解決するのに優れていることを示す。
MapillaryとCityscapesの両方で、最先端の新たな結果が得られます。
論文 参考訳(メタデータ) (2020-05-21T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。