論文の概要: PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2412.10589v1
- Date: Fri, 13 Dec 2024 22:12:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:54.183331
- Title: PanSR: An Object-Centric Mask Transformer for Panoptic Segmentation
- Title(参考訳): PanSR: 被写体中心のマスク変換器
- Authors: Lojze Žust, Matej Kristan,
- Abstract要約: パノプティクスのセグメンテーションはコンピュータビジョンの基本課題であり、自動運転車の認識にとって重要な要素である。
最近のマスクトランスフォーマーベースの手法は、標準的なベンチマークでは素晴らしいパフォーマンスを達成しているが、小さなオブジェクト、混み合ったシーン、広範囲のオブジェクトスケールを示すシーンで重大な課題に直面している。
そこで我々は,PanSRを用いたパン光学セグメンテーション手法を提案する。PanSRは,インスタンスのマージを効果的に軽減し,小さなオブジェクト検出を向上し,混み合うシーンにおけるパフォーマンスを向上し,挑戦的なLaRSベンチマーク上での最先端のPQを,Cityscapesで最先端のパフォーマンスに到達しつつ,注目すべき+3.4PQ向上を実現した。
- 参考スコア(独自算出の注目度): 9.713215680147583
- License:
- Abstract: Panoptic segmentation is a fundamental task in computer vision and a crucial component for perception in autonomous vehicles. Recent mask-transformer-based methods achieve impressive performance on standard benchmarks but face significant challenges with small objects, crowded scenes and scenes exhibiting a wide range of object scales. We identify several fundamental shortcomings of the current approaches: (i) the query proposal generation process is biased towards larger objects, resulting in missed smaller objects, (ii) initially well-localized queries may drift to other objects, resulting in missed detections, (iii) spatially well-separated instances may be merged into a single mask causing inconsistent and false scene interpretations. To address these issues, we rethink the individual components of the network and its supervision, and propose a novel method for panoptic segmentation PanSR. PanSR effectively mitigates instance merging, enhances small-object detection and increases performance in crowded scenes, delivering a notable +3.4 PQ improvement over state-of-the-art on the challenging LaRS benchmark, while reaching state-of-the-art performance on Cityscapes. The code and models will be publicly available at https://github.com/lojzezust/PanSR.
- Abstract(参考訳): パノプティクスのセグメンテーションはコンピュータビジョンの基本課題であり、自動運転車の認識にとって重要な要素である。
近年のマスクトランスフォーマーを用いた手法は,標準的なベンチマークでは優れた性能を発揮するが,小さなオブジェクトや混み合ったシーン,広範囲のオブジェクトスケールを示すシーンなど,重大な課題に直面している。
現在のアプローチの根本的な欠点をいくつか挙げる。
i)クエリ提案生成プロセスは、より大きなオブジェクトに偏りがあり、結果として小さなオブジェクトが失われる。
(ii) 最初は局所的なクエリが他のオブジェクトにドリフトし、検出に失敗する可能性がある。
三 空間的によく区切られた事例を、矛盾した虚偽のシーン解釈を引き起こす単一のマスクにマージすることができる。
これらの課題に対処するために,ネットワークの個々のコンポーネントとその監督について再考し,汎視的セグメンテーションのための新しい手法を提案する。
PanSRは、インスタンスのマージを効果的に軽減し、小さなオブジェクトの検出を強化し、混み合ったシーンのパフォーマンスを高め、挑戦的なLaRSベンチマークで最先端のPQを3.4P向上させ、Cityscapesで最先端のパフォーマンスを達成した。
コードとモデルはhttps://github.com/lojzezust/PanSR.comで公開される。
関連論文リスト
- PanoSSC: Exploring Monocular Panoptic 3D Scene Reconstruction for Autonomous Driving [15.441175735210791]
視覚中心の占有ネットワークは、セマンティクスを持った均一なボクセルで周囲の環境を表現する。
現代の占有ネットワークは主に、ボクセルのセマンティックな予測によって、物体表面から見えるボクセルを再構築することに焦点を当てている。
論文 参考訳(メタデータ) (2024-06-11T07:51:26Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Transformation-Invariant Network for Few-Shot Object Detection in Remote
Sensing Images [15.251042369061024]
FSOD(Few-shot Object Detection)は、トレーニングのために大量のラベル付きデータを頼りにしている。
リモートセンシング画像におけるオブジェクトのスケールと向きのバリエーションは、既存のFSOD法に重大な課題をもたらす。
特徴ピラミッドネットワークの統合と,クエリ機能向上のためのプロトタイプ機能の利用を提案する。
論文 参考訳(メタデータ) (2023-03-13T02:21:38Z) - To Make Yourself Invisible with Adversarial Semantic Contours [47.755808439588094]
逆セマンティック・コンター(英: Adversarial Semantic Contour、ASC)は、物体の輪郭の前に騙されたスパース・アタックのベイズ的定式化の見積もりである。
ASCは、異なるアーキテクチャを持つ9つの近代検出器の予測を損なう可能性があることを示す。
我々は、様々なアーキテクチャを持つ物体検出器の共通弱点である輪郭について注意を払って結論付けた。
論文 参考訳(メタデータ) (2023-03-01T07:22:39Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Superpixel-based Refinement for Object Proposal Generation [3.1981440103815717]
最新のオブジェクトプロポーザルシステムAttentionMask上に、新しいスーパーピクセルベースの改良アプローチを導入します。
実験の結果,AttentionMaskに比べて平均リコール率26.4%の改善が見られた。
論文 参考訳(メタデータ) (2021-01-12T16:06:48Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。