論文の概要: K-Net: Towards Unified Image Segmentation
- arxiv url: http://arxiv.org/abs/2106.14855v1
- Date: Mon, 28 Jun 2021 17:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:02:37.102316
- Title: K-Net: Towards Unified Image Segmentation
- Title(参考訳): K-Net: 統一イメージセグメンテーションを目指して
- Authors: Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
- Abstract要約: K-Netと名付けられたこのフレームワークは、学習可能なカーネルのグループによってインスタンスとセマンティックカテゴリの両方を一貫して分割する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
- 参考スコア(独自算出の注目度): 78.32096542571257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic, instance, and panoptic segmentations have been addressed using
different and specialized frameworks despite their underlying connections. This
paper presents a unified, simple, and effective framework for these essentially
similar tasks. The framework, named K-Net, segments both instances and semantic
categories consistently by a group of learnable kernels, where each kernel is
responsible for generating a mask for either a potential instance or a stuff
class. To remedy the difficulties of distinguishing various instances, we
propose a kernel update strategy that enables each kernel dynamic and
conditional on its meaningful group in the input image. K-Net can be trained in
an end-to-end manner with bipartite matching, and its training and inference
are naturally NMS-free and box-free. Without bells and whistles, K-Net
surpasses all previous state-of-the-art single-model results of panoptic
segmentation on MS COCO and semantic segmentation on ADE20K with 52.1% PQ and
54.3% mIoU, respectively. Its instance segmentation performance is also on par
with Cascade Mask R-CNNon MS COCO with 60%-90% faster inference speeds. Code
and models will be released at https://github.com/open-mmlab/mmdetection.
- Abstract(参考訳): セマンティクス、インスタンス、およびpanopticセグメンテーションは、基盤となる接続にもかかわらず、異なる、特殊なフレームワークを使用して対処されてきた。
本稿では,これらと本質的に類似したタスクに対して,統一的でシンプルで効果的なフレームワークを提案する。
k-netと名付けられたこのフレームワークは、学習可能なカーネルのグループによって、インスタンスとセマンティクスの両方のカテゴリを一貫してセグメンテーションする。
様々なインスタンスを区別することの難しさを解消するために,入力画像中の各カーネルを意味のあるグループに動的かつ条件づけするカーネル更新戦略を提案する。
K-Netは双方向マッチングでエンドツーエンドでトレーニングすることができ、そのトレーニングと推論は自然にNMSフリーで、ボックスフリーである。
ベルとホイッスルがなければ、K-Netは、MS COCOのパン光学セグメントと、52.1% PQと54.3% mIoUのADE20Kのセマンティックセマンティックセマンティックセマンティックセマンティックセマンティクスの全ての最先端シングルモデル結果を上回っている。
インスタンスセグメンテーション性能はカスケードマスク R-CNNon MS COCOと同等であり、推論速度は60%-90%高速である。
コードとモデルはhttps://github.com/open-mmlab/mmdetectionでリリースされる。
関連論文リスト
- MOKD: Cross-domain Finetuning for Few-shot Classification via Maximizing Optimized Kernel Dependence [97.93517982908007]
NCCは、ドメイン間数ショットの分類において、少数ショットの分類が可能なメートル法空間を構築するために表現を学ぶことを目的としている。
本稿では,異なるクラスから得られた2つの標本の NCC 学習表現に高い類似性があることを見出した。
ラベル付きデータによって示されるクラスタ構造にマッチするクラス固有の表現の集合を学習するために、最適化されたカーネル依存(MOKD)を最大化する二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T05:59:52Z) - OneFormer3D: One Transformer for Unified Point Cloud Segmentation [5.530212768657545]
本稿では,統合された,シンプルで効果的なセグメンテーションタスクのセマンティクス,例,およびパノプティックセグメンテーションタスクを共同で提案する。
OneFormer3Dという名前のモデルは、学習可能なカーネルのグループを使用して、インスタンスとセマンティックセグメンテーションを一貫して実行する。
また、ScanNet、ScanNet200、S3DISデータセットのセマンティック、例、およびパノプティックセグメンテーションにおいて、最先端の結果を示す。
論文 参考訳(メタデータ) (2023-11-24T10:56:27Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Video K-Net: A Simple, Strong, and Unified Baseline for Video
Segmentation [85.08156742410527]
Video K-Netは、エンドツーエンドのビデオパノラマセグメンテーションのためのフレームワークである。
学習可能なカーネルのグループを通じてイメージセグメンテーションを統一する。
Video K-Netが"things"と"stuff"を同時にセグメンテーションし追跡することを学ぶ
論文 参考訳(メタデータ) (2022-04-10T11:24:47Z) - Unifying Instance and Panoptic Segmentation with Dynamic Rank-1
Convolutions [109.2706837177222]
DR1Maskは、インスタンスとセマンティックセグメンテーションの両方で共有機能マップを利用する最初のパノプティクスセグメンテーションフレームワークである。
副産物として、DR1Maskは従来の最先端のインスタンスセグメンテーションネットワークであるBlendMaskよりも10%高速で1ポイント精度が高い。
論文 参考訳(メタデータ) (2020-11-19T12:42:10Z) - Towards Bounding-Box Free Panoptic Segmentation [16.4548904544277]
パン光学セグメンテーションのための新しいBunding-Box Free Network (BBFNet) を提案する。
BBFNetは、粗い流域レベルを予測し、境界が適切に定義された大きなインスタンス候補を検出するためにそれらを使用する。
境界が信頼性の低い小さなインスタンスでは、BBFNetはHoughの投票によってインスタンス中心を予測し、続いて平均シフトによって小さなオブジェクトを確実に検出する。
論文 参考訳(メタデータ) (2020-02-18T16:34:01Z) - Unifying Training and Inference for Panoptic Segmentation [111.44758195510838]
本稿では,汎視的セグメンテーションのためのトレーニングと推論のギャップを埋めるエンド・ツー・エンドのネットワークを提案する。
本システムは,ResNet-50のバックボーンで61.4 PQを達成した,人気のストリートシーンデータセットであるCityscapesに新たなレコードを設定する。
当社のネットワークは柔軟にオブジェクトマスクのヒントなしで動作し、両方の設定下で競合的に動作します。
論文 参考訳(メタデータ) (2020-01-14T18:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。