Fugu-MT 論文翻訳(概要): Improving Panoptic Segmentation at All Scales

論文の概要: Improving Panoptic Segmentation at All Scales

arxiv url: http://arxiv.org/abs/2012.07717v2
Date: Tue, 23 Mar 2021 13:31:57 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-08 14:28:19.563010
Title: Improving Panoptic Segmentation at All Scales
Title（参考訳）: 全スケールでのパノプティカルセグメンテーションの改善
Authors: Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder
Abstract要約: Cropベースのトレーニング戦略は、GPUメモリ消費からトレーニング解像度を分離する。新規な作物認識バウンディングボックス回帰損失(CABB損失)を提案する。挑戦的なMapillary Vistas(MVD)、Indian Driving、Cityscapesデータセットで最新の結果が得られます。
参考スコア（独自算出の注目度）: 22.944205711622736
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Crop-based training strategies decouple training resolution from GPU memory consumption, allowing the use of large-capacity panoptic segmentation networks on multi-megapixel images. Using crops, however, can introduce a bias towards truncating or missing large objects. To address this, we propose a novel crop-aware bounding box regression loss (CABB loss), which promotes predictions to be consistent with the visible parts of the cropped objects, while not over-penalizing them for extending outside of the crop. We further introduce a novel data sampling and augmentation strategy which improves generalization across scales by counteracting the imbalanced distribution of object sizes. Combining these two contributions with a carefully designed, top-down panoptic segmentation architecture, we obtain new state-of-the-art results on the challenging Mapillary Vistas (MVD), Indian Driving and Cityscapes datasets, surpassing the previously best approach on MVD by +4.5% PQ and +5.2% mAP.
Abstract（参考訳）: クロップベースのトレーニング戦略は、トレーニング解決をGPUメモリ消費から切り離し、マルチメガピクセルイメージに大容量の汎光学セグメントネットワークを使用できる。しかし、作物を使うことは大きな物体の切り離しや欠落にバイアスをもたらす可能性がある。そこで本研究では,作物の外側に延ばすために過剰にペナルティを与えることなく,切り取られた物体の目に見える部分と一致した予測を促進させる新しい作物認識バウンディングボックスレグレッションロス(cabbロス)を提案する。さらに,オブジェクトサイズの不均衡な分布に対抗して,スケール全体の一般化を改善する新しいデータサンプリング・拡張戦略も導入する。これら2つの貢献と、慎重に設計されたトップダウンのパンオプティカルセグメンテーションアーキテクチャを組み合わせることで、従来のmvdのアプローチを+4.5%pqと+5.2%のmapで上回る、挑戦的なmapillary vistas(mvd)、インドの運転および都市景観データセットに関する最新の結果が得られる。

関連論文リスト

Foreground-Aware Dataset Distillation via Dynamic Patch Selection [56.565143366562495]
コンテンツ適応方式でパッチ選択を向上する前景対応型データセット蒸留法を提案する。複数のベンチマーク実験により,提案手法は既存手法よりも蒸留性能を一貫して向上することが示された。
論文参考訳（メタデータ） (2026-01-06T05:44:02Z)
Simplifying CLIP: Unleashing the Power of Large-Scale Models on Consumer-level Computers [3.2492319522383717]
Contrastive Language-Image Pre-Training (CLIP) はその優れたゼロショット性能と下流タスクへの優れた転送性のために注目を集めている。しかし、そのような大規模モデルのトレーニングは通常、実際の計算とストレージを必要とするため、一般ユーザにとって消費者レベルのコンピュータでは障壁となる。
論文参考訳（メタデータ） (2024-11-22T08:17:46Z)
A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
汎用的なビジョンモデルは、様々なビジョンタスクのための1つの同じアーキテクチャを目指している。このような共有アーキテクチャは魅力的に思えるかもしれないが、ジェネラリストモデルは、その好奇心に満ちたモデルよりも優れている傾向にある。一般モデルの望ましい性質を損なうことなく、2つの重要なコントリビューションを導入することでこの問題に対処する。
論文参考訳（メタデータ） (2024-08-29T13:02:12Z)
Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-02-08T22:58:06Z)
Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文参考訳（メタデータ） (2024-02-03T19:00:19Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
Look at the Neighbor: Distortion-aware Unsupervised Domain Adaptation for Panoramic Semantic Segmentation [5.352137021024213]
この目的は、等方射影(ERP)の均一分布画素のスタイル不均一性と歪み問題に起因する領域ギャップに対処することである。パノラマ的セマンティックセグメンテーションの歪み問題に効果的に対処できる新しいUDAフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-10T10:47:12Z)
Intra-Batch Supervision for Panoptic Segmentation on High-Resolution Images [4.314956204483074]
統一パノプティカルセグメンテーション法は、いくつかのデータセットで最先端の結果を達成している。高分解能データセット上でこれらの結果を達成するために、これらの手法は作物ベースの訓練を適用している。作物をベースとした訓練は一般的に有利だが、有害な副作用もある。 Intra-Batch Supervision (IBS) を提案する。
論文参考訳（メタデータ） (2023-04-17T12:48:36Z)
Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。 DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文参考訳（メタデータ） (2022-05-23T23:05:07Z)
Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文参考訳（メタデータ） (2022-04-22T17:53:27Z)
PANet: Perspective-Aware Network with Dynamic Receptive Fields and Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文参考訳（メタデータ） (2021-10-31T04:43:05Z)
Bayesian Multi-Scale Neural Network for Crowd Counting [0.0]
クラウドカウントは、コンピュータビジョンにおいて難しいが重要なタスクである。密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-07-11T21:43:20Z)
Split-Merge Pooling [36.2980225204665]
スプリット・マージ・プールはサブサンプリングなしで空間情報を保存するために導入された。本研究では,CityscapesとGTA-5データセットから得られた大規模画像の高密度なセマンティックセマンティックセマンティックセグメンテーションについて検討した。
論文参考訳（メタデータ） (2020-06-13T23:20:30Z)
Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。 GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文参考訳（メタデータ） (2020-06-11T16:19:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。