論文の概要: Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations
- arxiv url: http://arxiv.org/abs/2303.16891v1
- Date: Wed, 29 Mar 2023 17:58:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 13:35:51.719154
- Title: Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations
- Title(参考訳): マスクのないOVIS:手動マスク注釈のないオープン語彙インスタンスセグメンテーション
- Authors: Vibashan VS, Ning Yu, Chen Xing, Can Qin, Mingfei Gao, Juan Carlos
Niebles, Vishal M. Patel, Ran Xu
- Abstract要約: Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
- 参考スコア(独自算出の注目度): 86.47908754383198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing instance segmentation models learn task-specific information using
manual mask annotations from base (training) categories. These mask annotations
require tremendous human effort, limiting the scalability to annotate novel
(new) categories. To alleviate this problem, Open-Vocabulary (OV) methods
leverage large-scale image-caption pairs and vision-language models to learn
novel categories. In summary, an OV method learns task-specific information
using strong supervision from base annotations and novel category information
using weak supervision from image-captions pairs. This difference between
strong and weak supervision leads to overfitting on base categories, resulting
in poor generalization towards novel categories. In this work, we overcome this
issue by learning both base and novel categories from pseudo-mask annotations
generated by the vision-language model in a weakly supervised manner using our
proposed Mask-free OVIS pipeline. Our method automatically generates
pseudo-mask annotations by leveraging the localization ability of a pre-trained
vision-language model for objects present in image-caption pairs. The generated
pseudo-mask annotations are then used to supervise an instance segmentation
model, freeing the entire pipeline from any labour-expensive instance-level
annotations and overfitting. Our extensive experiments show that our method
trained with just pseudo-masks significantly improves the mAP scores on the
MS-COCO dataset and OpenImages dataset compared to the recent state-of-the-art
methods trained with manual masks. Codes and models are provided in
https://vibashan.github.io/ovis-web/.
- Abstract(参考訳): 既存のインスタンスセグメンテーションモデルは、ベース(トレーニング)カテゴリから手動マスクアノテーションを使用してタスク固有の情報を学ぶ。
これらのマスクアノテーションは、新しい(新しい)カテゴリのアノテートにスケーラビリティを制限し、多大な人的努力を必要とする。
この問題を軽減するために、Open-Vocabulary (OV) 法は大規模な画像キャプチャペアと視覚言語モデルを利用して新しいカテゴリを学習する。
要約すると、OV法は、ベースアノテーションから強い監督力と、イメージキャプションペアから弱い監督力を用いた新しいカテゴリ情報を用いてタスク固有の情報を学ぶ。
この強い監督と弱い監督の違いは、基本カテゴリに過度に適合し、新しいカテゴリへの一般化が不十分になる。
本研究では,視覚言語モデルが生成する擬似マスクアノテーションを,提案したマスクフリーOVISパイプラインを用いて弱教師付きで学習することにより,この問題を克服する。
画像キャプチャーペアに存在するオブジェクトに対する事前学習された視覚言語モデルの局所化能力を利用して擬似マスクアノテーションを自動生成する。
生成された擬似マスクアノテーションは、インスタンスセグメンテーションモデルを監督するために使用され、強制的にインスタンスレベルのアノテーションや過剰適合からパイプライン全体を解放する。
提案手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを,手動マスクでトレーニングした最近の最先端手法と比較して有意に改善することを示す。
コードとモデルはhttps://vibashan.github.io/ovis-web/で提供される。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - ContrastMask: Contrastive Learning to Segment Every Thing [18.265503138997794]
ContrastMaskを提案する。これは、目に見えないカテゴリと見えないカテゴリの両方でマスクセグメンテーションモデルを学ぶ。
仮面地域(地上)の特徴をまとめ、背景の特徴と対比する。
COCOデータセットの探索実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-18T07:41:48Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - The surprising impact of mask-head architecture on novel class
segmentation [27.076315496682444]
マスクヘッドのアーキテクチャは,トレーニング中にマスクを観察しないクラスへの一般化において,驚くほど重要な役割を担っている。
また,マスクヘッドアーキテクチャを選択すれば,従来の文献で提案された特別なモジュールや損失を必要とせずに,部分的に監督されたCOCOベンチマーク上でSOTA結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T16:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。