論文の概要: Improving Panoptic Segmentation at All Scales
- arxiv url: http://arxiv.org/abs/2012.07717v2
- Date: Tue, 23 Mar 2021 13:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:28:19.563010
- Title: Improving Panoptic Segmentation at All Scales
- Title(参考訳): 全スケールでのパノプティカルセグメンテーションの改善
- Authors: Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder
- Abstract要約: Cropベースのトレーニング戦略は、GPUメモリ消費からトレーニング解像度を分離する。
新規な作物認識バウンディングボックス回帰損失(CABB損失)を提案する。
挑戦的なMapillary Vistas(MVD)、Indian Driving、Cityscapesデータセットで最新の結果が得られます。
- 参考スコア(独自算出の注目度): 22.944205711622736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crop-based training strategies decouple training resolution from GPU memory
consumption, allowing the use of large-capacity panoptic segmentation networks
on multi-megapixel images. Using crops, however, can introduce a bias towards
truncating or missing large objects. To address this, we propose a novel
crop-aware bounding box regression loss (CABB loss), which promotes predictions
to be consistent with the visible parts of the cropped objects, while not
over-penalizing them for extending outside of the crop. We further introduce a
novel data sampling and augmentation strategy which improves generalization
across scales by counteracting the imbalanced distribution of object sizes.
Combining these two contributions with a carefully designed, top-down panoptic
segmentation architecture, we obtain new state-of-the-art results on the
challenging Mapillary Vistas (MVD), Indian Driving and Cityscapes datasets,
surpassing the previously best approach on MVD by +4.5% PQ and +5.2% mAP.
- Abstract(参考訳): クロップベースのトレーニング戦略は、トレーニング解決をGPUメモリ消費から切り離し、マルチメガピクセルイメージに大容量の汎光学セグメントネットワークを使用できる。
しかし、作物を使うことは大きな物体の切り離しや欠落にバイアスをもたらす可能性がある。
そこで本研究では,作物の外側に延ばすために過剰にペナルティを与えることなく,切り取られた物体の目に見える部分と一致した予測を促進させる新しい作物認識バウンディングボックスレグレッションロス(cabbロス)を提案する。
さらに,オブジェクトサイズの不均衡な分布に対抗して,スケール全体の一般化を改善する新しいデータサンプリング・拡張戦略も導入する。
これら2つの貢献と、慎重に設計されたトップダウンのパンオプティカルセグメンテーションアーキテクチャを組み合わせることで、従来のmvdのアプローチを+4.5%pqと+5.2%のmapで上回る、挑戦的なmapillary vistas(mvd)、インドの運転および都市景観データセットに関する最新の結果が得られる。
関連論文リスト
- Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。
しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文 参考訳(メタデータ) (2024-11-22T08:17:46Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。
このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。
一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation
for Panoramic Semantic Segmentation [5.352137021024213]
この目的は、等方射影(ERP)の均一分布画素のスタイル不均一性と歪み問題に起因する領域ギャップに対処することである。
パノラマ的セマンティックセグメンテーションの歪み問題に効果的に対処できる新しいUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-10T10:47:12Z) - Intra-Batch Supervision for Panoptic Segmentation on High-Resolution
Images [4.314956204483074]
統一パノプティカルセグメンテーション法は、いくつかのデータセットで最先端の結果を達成している。
高分解能データセット上でこれらの結果を達成するために、これらの手法は作物ベースの訓練を適用している。
作物をベースとした訓練は一般的に有利だが、有害な副作用もある。
Intra-Batch Supervision (IBS) を提案する。
論文 参考訳(メタデータ) (2023-04-17T12:48:36Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Split-Merge Pooling [36.2980225204665]
スプリット・マージ・プールはサブサンプリングなしで空間情報を保存するために導入された。
本研究では,CityscapesとGTA-5データセットから得られた大規模画像の高密度なセマンティックセマンティックセマンティックセグメンテーションについて検討した。
論文 参考訳(メタデータ) (2020-06-13T23:20:30Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。