論文の概要: High-Quality Entity Segmentation
- arxiv url: http://arxiv.org/abs/2211.05776v3
- Date: Sun, 2 Apr 2023 22:01:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:19:37.200472
- Title: High-Quality Entity Segmentation
- Title(参考訳): 高品質エンティティセグメンテーション
- Authors: Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Jiaya
Jia, Zhe Lin, Ming-Hsuan Yang
- Abstract要約: CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
- 参考スコア(独自算出の注目度): 110.55724145851725
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dense image segmentation tasks e.g., semantic, panoptic) are useful for image
editing, but existing methods can hardly generalize well in an in-the-wild
setting where there are unrestricted image domains, classes, and image
resolution and quality variations. Motivated by these observations, we
construct a new entity segmentation dataset, with a strong focus on
high-quality dense segmentation in the wild. The dataset contains images
spanning diverse image domains and entities, along with plentiful
high-resolution images and high-quality mask annotations for training and
testing. Given the high-quality and -resolution nature of the dataset, we
propose CropFormer which is designed to tackle the intractability of
instance-level segmentation on high-resolution images. It improves mask
prediction by fusing high-res image crops that provide more fine-grained image
details and the full image. CropFormer is the first query-based Transformer
architecture that can effectively fuse mask predictions from multiple image
views, by learning queries that effectively associate the same entities across
the full image and its crop. With CropFormer, we achieve a significant AP gain
of $1.9$ on the challenging entity segmentation task. Furthermore, CropFormer
consistently improves the accuracy of traditional segmentation tasks and
datasets. The dataset and code will be released at
http://luqi.info/entityv2.github.io/.
- Abstract(参考訳): 高密度画像分割タスク(例えば、semantic, panoptic)は、画像編集に有用であるが、既存の手法では、制限のない画像ドメイン、クラス、および画像解像度と品質のバリエーションがある、ワイルド設定ではうまく一般化できない。
これらの観測により,野生の高次密度セグメンテーションに強い焦点をあてた新しいエンティティセグメンテーションデータセットを構築した。
データセットには、さまざまなイメージドメインとエンティティにまたがるイメージと、豊富な高解像度イメージと、トレーニングとテストのための高品質のマスクアノテーションが含まれている。
データセットの高品質で解像度の高い性質から,高分解能画像におけるインスタンスレベルのセグメンテーションの難解性に取り組むために,cropformerを提案する。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerは、複数のイメージビューからマスク予測を効果的に利用することができる最初のクエリベースのTransformerアーキテクチャである。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルのAP利益を達成しています。
さらに、CropFormerは従来のセグメンテーションタスクとデータセットの精度を一貫して改善している。
データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。
関連論文リスト
- UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - ReFit: A Framework for Refinement of Weakly Supervised Semantic
Segmentation using Object Border Fitting for Medical Images [4.945138408504987]
Weakly Supervised Semantic (WSSS)は、画像レベルの監視のみに依存しているため、ネットワークの必要性に対処する上で有望なアプローチである。
本稿では,最新クラスのアクティベーションマップとポストプロセッシング手法を組み合わせたReFitフレームワークを提案する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
論文 参考訳(メタデータ) (2023-03-14T12:46:52Z) - Open-World Entity Segmentation [70.41548013910402]
我々は、意味圏ラベルを考慮せずに、画像内のすべての視覚的エンティティをセグメント化することを目的として、Entity(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。
意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。
1) 複数のデータセットをマージしてラベルの衝突を解決することなく大規模なトレーニングセットを形成すること、2) 1つのデータセットでトレーニングされたモデルが、目に見えないドメインを持つ他のデータセットに対して、例外的にうまく一般化することができること、である。
論文 参考訳(メタデータ) (2021-07-29T17:59:05Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Meticulous Object Segmentation [37.48446050876045]
Meticulous Object segmentation (MOS) というタスクを提案し,検討する。
MeticulousNetは専用のデコーダを使用してオブジェクト境界の詳細をキャプチャする。
我々は,MeticulousNetが画素精度のセグメンテーション境界を明確化できることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-12-13T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。