論文の概要: Fine-Grained Entity Segmentation
- arxiv url: http://arxiv.org/abs/2211.05776v2
- Date: Sat, 12 Nov 2022 04:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:44:33.749074
- Title: Fine-Grained Entity Segmentation
- Title(参考訳): 細粒化エンティティセグメンテーション
- Authors: Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Wenbo Li,
Jiaya Jia, Zhe Lin, Ming-Hsuan Yang
- Abstract要約: 大規模エンティティセグメンテーションデータセットを構築し、粒度の細かいエンティティセグメンテーションを探索する。
データセットには、さまざまな画像ドメインと解像度にまたがるイメージと、トレーニングとテストのための高品質なマスクアノテーションが含まれている。
高品質なセグメンテーションのためのCropFormerを提案する。
- 参考スコア(独自算出の注目度): 113.22829549481987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In dense image segmentation tasks (e.g., semantic, panoptic), existing
methods can hardly generalize well to unseen image domains, predefined classes,
and image resolution & quality variations. Motivated by these observations, we
construct a large-scale entity segmentation dataset to explore fine-grained
entity segmentation, with a strong focus on open-world and high-quality dense
segmentation. The dataset contains images spanning diverse image domains and
resolutions, along with high-quality mask annotations for training and testing.
Given the high-quality and -resolution nature of the dataset, we propose
CropFormer for high-quality segmentation, which can improve mask prediction
using high-res image crops that provide more fine-grained image details than
the full image. CropFormer is the first query-based Transformer architecture
that can effectively ensemble mask predictions from multiple image crops, by
learning queries that can associate the same entities across the full image and
its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the
challenging fine-grained entity segmentation task. The dataset and code will be
released at http://luqi.info/entityv2.github.io/.
- Abstract(参考訳): 密集した画像分割タスク(semantic、panopticなど)では、既存のメソッドが認識できない画像ドメイン、事前定義されたクラス、画像の解像度と品質のバリエーションにうまく一般化できない。
これらの観察に動機づけられ、オープンワールドと高品質の密集したセグメンテーションに重点を置いた、細粒度のエンティティセグメンテーションを探索する大規模なエンティティセグメンテーションデータセットを構築した。
データセットには、さまざまな画像ドメインと解像度にまたがるイメージと、トレーニングとテストのための高品質なマスクアノテーションが含まれている。
本稿では,データセットの高品質かつ解像度の高い性質から,高品質セグメンテーションのためのクロップフォーマーを提案する。
cropformerは、複数の画像からのマスク予測を効果的にアンサンブルできる、最初のクエリベースのトランスフォーマーアーキテクチャである。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクに対して、1.9ドルの大きなAPゲインを達成しています。
データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。
関連論文リスト
- UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - ReFit: A Framework for Refinement of Weakly Supervised Semantic
Segmentation using Object Border Fitting for Medical Images [4.945138408504987]
Weakly Supervised Semantic (WSSS)は、画像レベルの監視のみに依存しているため、ネットワークの必要性に対処する上で有望なアプローチである。
本稿では,最新クラスのアクティベーションマップとポストプロセッシング手法を組み合わせたReFitフレームワークを提案する。
本手法をWSSS予測に適用することにより,医用画像の最先端WSSS法に対して最大10%の改善を実現した。
論文 参考訳(メタデータ) (2023-03-14T12:46:52Z) - Open-World Entity Segmentation [70.41548013910402]
我々は、意味圏ラベルを考慮せずに、画像内のすべての視覚的エンティティをセグメント化することを目的として、Entity(ES)と呼ばれる新しいイメージセグメンテーションタスクを導入する。
意味的に意味のある全てのセグメントは、等しく分類なしのエンティティとして扱われる。
1) 複数のデータセットをマージしてラベルの衝突を解決することなく大規模なトレーニングセットを形成すること、2) 1つのデータセットでトレーニングされたモデルが、目に見えないドメインを持つ他のデータセットに対して、例外的にうまく一般化することができること、である。
論文 参考訳(メタデータ) (2021-07-29T17:59:05Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Meticulous Object Segmentation [37.48446050876045]
Meticulous Object segmentation (MOS) というタスクを提案し,検討する。
MeticulousNetは専用のデコーダを使用してオブジェクト境界の詳細をキャプチャする。
我々は,MeticulousNetが画素精度のセグメンテーション境界を明確化できることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-12-13T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。