論文の概要: Vision Transformers Are Good Mask Auto-Labelers
- arxiv url: http://arxiv.org/abs/2301.03992v1
- Date: Tue, 10 Jan 2023 18:59:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 16:46:09.882496
- Title: Vision Transformers Are Good Mask Auto-Labelers
- Title(参考訳): 視覚トランスフォーマーは、優れたマスク自動ラベルだ
- Authors: Shiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez, Anima
Anandkumar
- Abstract要約: 視覚変換器はマスク自動標識器として優れていることを示す。
MALはボックスクロッピングされた画像を入力として取り、マスクの擬似ラベルを条件付きで生成する。
MAL生成マスクを使用してトレーニングされたインスタンスセグメンテーションモデルは、完全に教師されたマスクのパフォーマンスとほぼ一致する。
- 参考スコア(独自算出の注目度): 100.72155356710914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Mask Auto-Labeler (MAL), a high-quality Transformer-based mask
auto-labeling framework for instance segmentation using only box annotations.
MAL takes box-cropped images as inputs and conditionally generates their mask
pseudo-labels.We show that Vision Transformers are good mask auto-labelers. Our
method significantly reduces the gap between auto-labeling and human annotation
regarding mask quality. Instance segmentation models trained using the
MAL-generated masks can nearly match the performance of their fully-supervised
counterparts, retaining up to 97.4\% performance of fully supervised models.
The best model achieves 44.1\% mAP on COCO instance segmentation (test-dev
2017), outperforming state-of-the-art box-supervised methods by significant
margins. Qualitative results indicate that masks produced by MAL are, in some
cases, even better than human annotations.
- Abstract(参考訳): ボックスアノテーションのみを用いた,高品質なトランスフォーマーベースのマスク自動ラベルフレームワークであるMask Auto-Labeler (MAL)を提案する。
MALは、箱詰め画像を入力として取り出し、マスク擬似ラベルを生成する。
本手法は,マスク品質に関する人的アノテーションと自動ラベルのギャップを著しく低減する。
MAL生成マスクを使用してトレーニングされたインスタンスセグメンテーションモデルは、完全に教師されたモデルのパフォーマンスとほぼ一致し、完全な教師されたモデルのパフォーマンスは97.4 %まで保持できる。
最高のモデルでは、COCOインスタンスセグメンテーションの44.1\% mAP(test-dev 2017)が達成され、最先端のボックス管理手法よりもかなりの差がある。
質的な結果は、MALが生成するマスクが人間のアノテーションよりも優れていることを示している。
関連論文リスト
- Mask Guided Gated Convolution for Amodal Content Completion [0.0]
部分的な可視物体を再構成するモデルを提案する。
モデルではマスクを入力として取り、それを重み付けマスクと呼ぶ。
可視領域からより多くの注意を引くことで、我々のモデルはベースラインモデルよりも効果的に見えないパッチを予測することができる。
論文 参考訳(メタデータ) (2024-07-21T15:51:29Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。
本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。
また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-11-26T19:31:49Z) - A Unified View of Masked Image Modeling [117.79456335844439]
マスク付き画像モデリングは、大規模な視覚変換器を訓練する際のラベル・ハングリーの問題を取り除く大きな可能性を示している。
マスク位置の教師モデルから正規化された意味的特徴を再構成する,MaskDistillと呼ばれるシンプルで効果的な手法を提案する。
画像分類とセマンティックセグメンテーションの実験結果から、MaskDistillは最先端の手法よりも同等または優れた性能を達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-19T14:59:18Z) - What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。
注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文 参考訳(メタデータ) (2022-03-23T20:52:50Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。