論文の概要: DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation
- arxiv url: http://arxiv.org/abs/2011.09876v3
- Date: Tue, 27 Apr 2021 13:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:18:43.306977
- Title: DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation
- Title(参考訳): DCT-マスク:離散コサイン変換マスク表現によるインスタンス分割
- Authors: Xing Shen, Jirui Yang, Chunbo Wei, Bing Deng, Jianqiang Huang,
Xiansheng Hua, Xiaoliang Cheng, Kewei Liang
- Abstract要約: 本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
- 参考スコア(独自算出の注目度): 50.70679435176346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binary grid mask representation is broadly used in instance segmentation. A
representative instantiation is Mask R-CNN which predicts masks on a $28\times
28$ binary grid. Generally, a low-resolution grid is not sufficient to capture
the details, while a high-resolution grid dramatically increases the training
complexity. In this paper, we propose a new mask representation by applying the
discrete cosine transform(DCT) to encode the high-resolution binary grid mask
into a compact vector. Our method, termed DCT-Mask, could be easily integrated
into most pixel-based instance segmentation methods. Without any bells and
whistles, DCT-Mask yields significant gains on different frameworks, backbones,
datasets, and training schedules. It does not require any pre-processing or
pre-training, and almost no harm to the running speed. Especially, for
higher-quality annotations and more complex backbones, our method has a greater
improvement. Moreover, we analyze the performance of our method from the
perspective of the quality of mask representation. The main reason why DCT-Mask
works well is that it obtains a high-quality mask representation with low
complexity. Code is available at https://github.com/aliyun/DCT-Mask.git.
- Abstract(参考訳): バイナリグリッドマスク表現は、インスタンスセグメンテーションで広く使用される。
代表的なインスタンスはMask R-CNNで、28ドルのバイナリグリッドでマスクを予測する。
一般に、低解像度グリッドは詳細を捉えるのに十分ではなく、高解像度グリッドはトレーニングの複雑さを劇的に増大させる。
本稿では, 離散コサイン変換(dct)を用いて, 高分解能2次グリッドマスクをコンパクトベクトルに符号化する新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
ベルとホイッスルがなければ、DCT-Maskはさまざまなフレームワーク、バックボーン、データセット、トレーニングスケジュールに対して大きな利益をもたらす。
事前処理や事前トレーニングは必要とせず、走行速度にほとんど危害を加えない。
特に,高品質なアノテーションや複雑なバックボーンに対して,提案手法は改善されている。
さらに,マスク表現の品質の観点から,提案手法の性能を解析した。
DCT-Maskがうまく機能する主な理由は、複雑さの低い高品質なマスク表現が得られることである。
コードはhttps://github.com/aliyun/DCT-Mask.gitで入手できる。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - MDTv2: Masked Diffusion Transformer is a Strong Image Synthesizer [158.06850125920923]
拡散確率モデル(DPM)は、画像内の対象部分間の関係を学習する文脈推論能力に欠けることが多い。
画像中のオブジェクトの意味部分間の文脈的関係学習能力を高めるマスク潜在モデリング手法を提案する。
実験の結果、MDTv2は画像合成性能に優れており、例えば、新しいSOTA FIDスコアはImageNetデータセットで1.58であり、従来のSOTA DiTよりも10倍以上高速であることがわかった。
論文 参考訳(メタデータ) (2023-03-25T07:47:21Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection [11.390163890611246]
Mask R-CNNは、任意の形のシーンテキストの検出とスポッティングのための強力なベースラインとして広く採用されている。
1つの提案には複数のインスタンスが存在する可能性があるため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを劣化させるのが難しくなる。
本稿では,各画素をテキストや非テキストに分類するのではなく,マスクヘッドがインスタンス全体の形状を予測することを学習する事例認識型マスク学習を提案する。
論文 参考訳(メタデータ) (2021-09-08T04:32:29Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。