論文の概要: Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection
- arxiv url: http://arxiv.org/abs/2109.03426v1
- Date: Wed, 8 Sep 2021 04:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:47:48.030068
- Title: Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection
- Title(参考訳): Maskは、Dense and Arbitrary-Shaped Scene Text DetectionのためのMask R-CNNを再考する
- Authors: Xugong Qin, Yu Zhou, Youhui Guo, Dayan Wu, Zhihong Tian, Ning Jiang,
Hongbin Wang, Weiping Wang
- Abstract要約: Mask R-CNNは、任意の形のシーンテキストの検出とスポッティングのための強力なベースラインとして広く採用されている。
1つの提案には複数のインスタンスが存在する可能性があるため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを劣化させるのが難しくなる。
本稿では,各画素をテキストや非テキストに分類するのではなく,マスクヘッドがインスタンス全体の形状を予測することを学習する事例認識型マスク学習を提案する。
- 参考スコア(独自算出の注目度): 11.390163890611246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the large success in object detection and instance segmentation, Mask
R-CNN attracts great attention and is widely adopted as a strong baseline for
arbitrary-shaped scene text detection and spotting. However, two issues remain
to be settled. The first is dense text case, which is easy to be neglected but
quite practical. There may exist multiple instances in one proposal, which
makes it difficult for the mask head to distinguish different instances and
degrades the performance. In this work, we argue that the performance
degradation results from the learning confusion issue in the mask head. We
propose to use an MLP decoder instead of the "deconv-conv" decoder in the mask
head, which alleviates the issue and promotes robustness significantly. And we
propose instance-aware mask learning in which the mask head learns to predict
the shape of the whole instance rather than classify each pixel to text or
non-text. With instance-aware mask learning, the mask branch can learn
separated and compact masks. The second is that due to large variations in
scale and aspect ratio, RPN needs complicated anchor settings, making it hard
to maintain and transfer across different datasets. To settle this issue, we
propose an adaptive label assignment in which all instances especially those
with extreme aspect ratios are guaranteed to be associated with enough anchors.
Equipped with these components, the proposed method named MAYOR achieves
state-of-the-art performance on five benchmarks including DAST1500, MSRA-TD500,
ICDAR2015, CTW1500, and Total-Text.
- Abstract(参考訳): オブジェクト検出とインスタンスセグメンテーションの大きな成功により、マスクr-cnnは大きな注目を集め、任意の形のテキスト検出とスポッティングの強力なベースラインとして広く採用されている。
しかし、2つの問題が解決される。
ひとつは、簡単に無視できるが実用的ではない、密集したテキストケースだ。
1つの提案には複数のインスタンスが存在するため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを低下させるのが難しくなる。
本研究では,マスクヘッドの学習混乱問題による性能劣化について論じる。
マスクヘッドのデコーダにmlpデコーダを用いることを提案し,この問題を緩和し,ロバスト性を高める。
また,マスクヘッドが各画素をテキストや非テキストに分類するのではなく,全体の形状を予測することを学習する事例認識マスク学習を提案する。
例認識マスク学習では、マスクブランチは分離されたコンパクトマスクを学習することができる。
2つ目は、スケールとアスペクト比の大きなバリエーションのため、RPNは複雑なアンカー設定を必要としており、異なるデータセットのメンテナンスと転送が困難であることだ。
この問題を解決するために,極端アスペクト比のすべてのインスタンスが十分なアンカーに関連付けられていることを保証する適応ラベル割り当てを提案する。
提案手法は, DAST1500, MSRA-TD500, ICDAR2015, CTW1500, Total-Text の5つのベンチマークにおいて, 最先端の性能を実現する。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - BoxInst: High-Performance Instance Segmentation with Box Annotations [102.10713189544947]
本稿では,トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。
私たちの中核となる考え方は、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの喪失を活用することです。
論文 参考訳(メタデータ) (2020-12-03T22:27:55Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。