論文の概要: MP-Former: Mask-Piloted Transformer for Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.07336v1
- Date: Mon, 13 Mar 2023 17:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 13:27:57.524975
- Title: MP-Former: Mask-Piloted Transformer for Image Segmentation
- Title(参考訳): mp-former: 画像分割用マスク操縦トランス
- Authors: Hao Zhang, Feng Li, Huaizhe Xu, Shijia Huang, Shilong Liu, Lionel M.
Ni, Lei Zhang
- Abstract要約: Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
- 参考スコア(独自算出の注目度): 16.620469868310288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a mask-piloted Transformer which improves masked-attention in
Mask2Former for image segmentation. The improvement is based on our observation
that Mask2Former suffers from inconsistent mask predictions between consecutive
decoder layers, which leads to inconsistent optimization goals and low
utilization of decoder queries. To address this problem, we propose a
mask-piloted training approach, which additionally feeds noised ground-truth
masks in masked-attention and trains the model to reconstruct the original
ones. Compared with the predicted masks used in mask-attention, the
ground-truth masks serve as a pilot and effectively alleviate the negative
impact of inaccurate mask predictions in Mask2Former. Based on this technique,
our \M achieves a remarkable performance improvement on all three image
segmentation tasks (instance, panoptic, and semantic), yielding $+2.3$AP and
$+1.6$mIoU on the Cityscapes instance and semantic segmentation tasks with a
ResNet-50 backbone. Our method also significantly speeds up the training,
outperforming Mask2Former with half of the number of training epochs on ADE20K
with both a ResNet-50 and a Swin-L backbones. Moreover, our method only
introduces little computation during training and no extra computation during
inference. Our code will be released at
\url{https://github.com/IDEA-Research/MP-Former}.
- Abstract(参考訳): 画像セグメンテーションのためのMask2Formerにおけるマスク配置を改善するマスクパイロット変換器を提案する。
この改善は、Mask2Formerが連続するデコーダ層間のマスク予測の不整合に悩まされ、不整合最適化目標とデコーダクエリの低利用につながるという観察に基づいている。
そこで本研究では,マスクの被写体にマスクを装着し,被写体復元のための模型を訓練し,被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体被写体化法を提案する。
マスク・アテンションで使用される予測マスクと比較すると、地平線マスクはパイロットとして機能し、Mask2Formerにおける不正確なマスク予測の負の影響を効果的に軽減する。
この技術に基づいて、我々の \M は3つのイメージセグメンテーションタスク(インスタンス、パノプティクス、セマンティクス)で顕著なパフォーマンス向上を実現し、Cityscapes インスタンスと ResNet-50 バックボーンによるセマンティクスセグメンテーションタスクで$2.3$AP と$+1.6$mIoU が得られる。
また,ade20kでは,resnet-50 と swin-l バックボーンの両方で,トレーニング回数の半数で mask2former を上回り,トレーニング速度を大幅に向上させた。
さらに,本手法では,学習中の計算量が少なく,推論時に余分な計算も行わない。
私たちのコードは \url{https://github.com/IDEA-Research/MP-Former} でリリースされます。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection [11.390163890611246]
Mask R-CNNは、任意の形のシーンテキストの検出とスポッティングのための強力なベースラインとして広く採用されている。
1つの提案には複数のインスタンスが存在する可能性があるため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを劣化させるのが難しくなる。
本稿では,各画素をテキストや非テキストに分類するのではなく,マスクヘッドがインスタンス全体の形状を予測することを学習する事例認識型マスク学習を提案する。
論文 参考訳(メタデータ) (2021-09-08T04:32:29Z) - Boosting Masked Face Recognition with Multi-Task ArcFace [0.973681576519524]
新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常の衣服に欠かせないものになっています。
この尺度は、マスクされた顔で機能するよう設計されていないため、最先端の顔認識モデルをロープに乗せている。
完全なトレーニングパイプラインがArcFace作業に基づいて提示され、バックボーンとロス関数のいくつかの修正が行われている。
論文 参考訳(メタデータ) (2021-04-20T10:12:04Z) - BoxInst: High-Performance Instance Segmentation with Box Annotations [102.10713189544947]
本稿では,トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。
私たちの中核となる考え方は、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの喪失を活用することです。
論文 参考訳(メタデータ) (2020-12-03T22:27:55Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - Fully Convolutional Networks for Automatically Generating Image Masks to
Train Mask R-CNN [4.901462756978097]
Mask R-CNN法は、これまでオブジェクト検出の最良の結果を達成するが、トレーニングのためにMaskを入手するには非常に時間がかかり、手間がかかる。
本稿では,最新のMask R-CNN深層学習のための画像マスク自動生成手法を提案する。
提案手法は,Mask R-CNNを訓練するために自動的に画像マスクを得ることができ,セグメント化における平均精度(mAP)の90%以上の精度で非常に高い分類精度を得ることができる。
論文 参考訳(メタデータ) (2020-03-03T08:09:29Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。