論文の概要: Open-world Instance Segmentation: Top-down Learning with Bottom-up
Supervision
- arxiv url: http://arxiv.org/abs/2303.05503v1
- Date: Thu, 9 Mar 2023 18:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 13:27:06.498108
- Title: Open-world Instance Segmentation: Top-down Learning with Bottom-up
Supervision
- Title(参考訳): open-world instance segmentation - ボトムアップによるトップダウン学習
- Authors: Tarun Kalluri, Weiyao Wang, Heng Wang, Manmohan Chandraker, Lorenzo
Torresani, Du Tran
- Abstract要約: ボトムアップとトップダウンオープンワールド(UDOS)と呼ばれるオープンワールドのインスタンスセグメンテーションのための新しいアプローチを提案する。
UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使用して、オブジェクトの一部を予測する。
UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監視からカテゴリを見落とせる能力の両方を享受しています。
- 参考スコア(独自算出の注目度): 93.41096983704021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many top-down architectures for instance segmentation achieve significant
success when trained and tested on pre-defined closed-world taxonomy. However,
when deployed in the open world, they exhibit notable bias towards seen classes
and suffer from significant performance drop. In this work, we propose a novel
approach for open world instance segmentation called bottom-Up and top-Down
Open-world Segmentation (UDOS) that combines classical bottom-up segmentation
algorithms within a top-down learning framework. UDOS first predicts parts of
objects using a top-down network trained with weak supervision from bottom-up
segmentations. The bottom-up segmentations are class-agnostic and do not
overfit to specific taxonomies. The part-masks are then fed into affinity-based
grouping and refinement modules to predict robust instance-level segmentations.
UDOS enjoys both the speed and efficiency from the top-down architectures and
the generalization ability to unseen categories from bottom-up supervision. We
validate the strengths of UDOS on multiple cross-category as well as
cross-dataset transfer tasks from 5 challenging datasets including MS-COCO,
LVIS, ADE20k, UVO and OpenImages, achieving significant improvements over
state-of-the-art across the board. Our code and models are available on our
project page.
- Abstract(参考訳): 例えばセグメンテーションのようなトップダウンアーキテクチャの多くは、事前定義されたクローズドワールド分類法でトレーニングとテストを行う際に大きな成功を収める。
しかし、オープン世界にデプロイすると、目に見えるクラスに対する顕著なバイアスを示し、大幅なパフォーマンス低下に苦しむ。
本研究では,従来のボトムアップセグメンテーションアルゴリズムをトップダウン学習フレームワークに組み込んだボトムアップおよびトップダウンオープンワールドセグメンテーション(UDOS)という,オープンワールドインスタンスセグメンテーションの新しいアプローチを提案する。
UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使ってオブジェクトの一部を予測する。
ボトムアップのセグメンテーションはクラス非依存であり、特定の分類体系に過度に適合しない。
パートマスクは、堅牢なインスタンスレベルのセグメンテーションを予測するために、アフィニティベースのグルーピングおよびリファインメントモジュールに入力される。
UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監督からカテゴリを見落とせる一般化能力の両方を享受している。
MS-COCO, LVIS, ADE20k, UVO, OpenImages を含む5つの課題データセットから, 複数カテゴリ間での UDOS の強み, およびデータセット間の転送タスクを検証する。
私たちのコードとモデルは、プロジェクトのページで利用可能です。
関連論文リスト
- Instance Segmentation under Occlusions via Location-aware Copy-Paste
Data Augmentation [8.335108002480068]
MMSports 2023 DeepSportRadarは、バスケットボールのコンテキスト内での人間の対象のセグメンテーションに焦点を当てたデータセットを導入した。
この課題は、堅牢なデータ拡張技術と賢明なディープラーニングアーキテクチャの適用を必要とする。
我々の研究(コンペで1位)は、まず、より広い分布でより多くのトレーニングサンプルを生成することのできる、新しいデータ拡張技術を提案する。
論文 参考訳(メタデータ) (2023-10-27T07:44:25Z) - Towards Universal Vision-language Omni-supervised Segmentation [72.31277932442988]
オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
論文 参考訳(メタデータ) (2023-03-12T02:57:53Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Open-World Instance Segmentation: Exploiting Pseudo Ground Truth From
Learned Pairwise Affinity [59.1823948436411]
我々は、マスク提案のための新しいアプローチ、ジェネリックグループネットワーク(GGN)を提案する。
我々のアプローチは、ピクセル親和性の局所測定とインスタンスレベルのマスク監視を組み合わせることで、データの多様性が許容するほど汎用的なモデルを設計したトレーニングレギュレータを生成する。
論文 参考訳(メタデータ) (2022-04-12T22:37:49Z) - Fully Self-Supervised Learning for Semantic Segmentation [46.6602159197283]
セマンティックセグメンテーション(FS4)のための完全自己教師型フレームワークを提案する。
自己スーパービジョンのためのグローバルなセマンティック知識をフル活用したセマンティックセマンティックセマンティクスのためのブートストラップ付きトレーニングスキームを提案する。
大規模COCO-Stuffデータセットを用いて本手法の評価を行い,対象物と対象物の両方において7.19mIoUの改善を実現した。
論文 参考訳(メタデータ) (2022-02-24T09:38:22Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - Class-wise Dynamic Graph Convolution for Semantic Segmentation [63.08061813253613]
本稿では,情報を適応的に伝達するクラスワイド動的グラフ畳み込み (CDGC) モジュールを提案する。
また、CDGCモジュールと基本セグメンテーションネットワークを含む2つの主要部分からなるCDGCNet(Class-wise Dynamic Graph Convolution Network)についても紹介する。
我々は,Cityscapes,PASCAL VOC 2012,COCO Stuffの3つの一般的なセマンティックセマンティックセマンティクスベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-19T15:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。