論文の概要: Instance Segmentation under Occlusions via Location-aware Copy-Paste
Data Augmentation
- arxiv url: http://arxiv.org/abs/2310.17949v2
- Date: Tue, 21 Nov 2023 05:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 04:26:49.512894
- Title: Instance Segmentation under Occlusions via Location-aware Copy-Paste
Data Augmentation
- Title(参考訳): 位置対応コピー・ペーストデータ拡張による咬合下インスタンス分割
- Authors: Son Nguyen, Mikel Lainsa, Hung Dao, Daeyoung Kim, Giang Nguyen
- Abstract要約: MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットを導入した。
この課題は、堅牢なデータ拡張技術と賢明なディープラーニングアーキテクチャの適用を必要とする。
我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することのできる、新しいデータ拡張技術を提案する。
- 参考スコア(独自算出の注目度): 8.335108002480068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Occlusion is a long-standing problem in computer vision, particularly in
instance segmentation. ACM MMSports 2023 DeepSportRadar has introduced a
dataset that focuses on segmenting human subjects within a basketball context
and a specialized evaluation metric for occlusion scenarios. Given the modest
size of the dataset and the highly deformable nature of the objects to be
segmented, this challenge demands the application of robust data augmentation
techniques and wisely-chosen deep learning architectures. Our work (ranked 1st
in the competition) first proposes a novel data augmentation technique, capable
of generating more training samples with wider distribution. Then, we adopt a
new architecture - Hybrid Task Cascade (HTC) framework with CBNetV2 as backbone
and MaskIoU head to improve segmentation performance. Furthermore, we employ a
Stochastic Weight Averaging (SWA) training strategy to improve the model's
generalization. As a result, we achieve a remarkable occlusion score (OM) of
0.533 on the challenge dataset, securing the top-1 position on the leaderboard.
Source code is available at this
https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoID.
- Abstract(参考訳): オクルージョン(Occlusion)は、コンピュータビジョン、特にインスタンスセグメンテーションにおける長年の問題である。
ACM MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットと、閉塞シナリオの特別な評価基準を導入した。
データセットのささやかなサイズと、セグメンテーション対象の高度に変形可能な性質を考えると、この課題は堅牢なデータ拡張技術と賢く簡潔なディープラーニングアーキテクチャの応用を必要とする。
我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することができる新しいデータ拡張技術を提案する。
次に,CBNetV2をバックボーンとしたHybrid Task Cascade(HTC)フレームワークとMaskIoUヘッドを採用し,セグメンテーション性能を向上させる。
さらに,SWA(Stochastic Weight Averaging)トレーニング戦略を用いて,モデルの一般化を改善する。
その結果、課題データセットにおいて0.533の顕著なオクルージョンスコア(OM)を達成し、リーダーボード上のトップ1位を確保した。
ソースコードは、https://github.com/nguyendinhson-kaist/MMSports23-Seg-AutoIDで入手できる。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - The Second-place Solution for CVPR VISION 23 Challenge Track 1 -- Data
Effificient Defect Detection [3.4853769431047907]
データ有効欠陥検出のためのビジョンチャレンジトラック1は、競合相手がデータ不足の環境で14の産業検査データセットを例示する必要がある。
この課題に対して、Aoi-overfiting-Teamチームの技術詳細を紹介します。
論文 参考訳(メタデータ) (2023-06-25T03:37:02Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with
Self-Supervised Depth Estimation [94.16816278191477]
本稿では,セミアダプティブなセマンティックセマンティックセマンティックセグメンテーションのためのフレームワークを提案する。
ラベルのない画像シーケンスでのみ訓練された自己教師付き単眼深度推定によって強化される。
提案したモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2021-08-28T01:33:38Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z) - 1st Place Solutions for OpenImage2019 -- Object Detection and Instance
Segmentation [116.25081559037872]
この記事では,2つのチャンピオンチーム,検出トラックのMMfruit'とセグメンテーショントラックのMMfruitSeg'のソリューションについて,OpenImage Challenge 2019で紹介する。
一般に、対象検出器の場合、バックボーンの端の共有特徴は分類と回帰の両方に適さないことが知られている。
自己学習型最適特徴抽出によりオブジェクトの分類と回帰を分離するデカップリングヘッド(DH)を提案する。
論文 参考訳(メタデータ) (2020-03-17T06:45:07Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。