論文の概要: DynaMask: Dynamic Mask Selection for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2303.07868v1
- Date: Tue, 14 Mar 2023 13:01:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:02:35.081355
- Title: DynaMask: Dynamic Mask Selection for Instance Segmentation
- Title(参考訳): DynaMask: インスタンスセグメンテーションのための動的マスク選択
- Authors: Ruihuang Li, Chenhang He, Shuai Li, Yabin Zhang, Lei Zhang
- Abstract要約: 我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
- 参考スコア(独自算出の注目度): 21.50329070835023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The representative instance segmentation methods mostly segment different
object instances with a mask of the fixed resolution, e.g., 28*28 grid.
However, a low-resolution mask loses rich details, while a high-resolution mask
incurs quadratic computation overhead. It is a challenging task to predict the
optimal binary mask for each instance. In this paper, we propose to dynamically
select suitable masks for different object proposals. First, a dual-level
Feature Pyramid Network (FPN) with adaptive feature aggregation is developed to
gradually increase the mask grid resolution, ensuring high-quality segmentation
of objects. Specifically, an efficient region-level top-down path (r-FPN) is
introduced to incorporate complementary contextual and detailed information
from different stages of image-level FPN (i-FPN). Then, to alleviate the
increase of computation and memory costs caused by using large masks, we
develop a Mask Switch Module (MSM) with negligible computational cost to select
the most suitable mask resolution for each instance, achieving high efficiency
while maintaining high segmentation accuracy. Without bells and whistles, the
proposed method, namely DynaMask, brings consistent and noticeable performance
improvements over other state-of-the-arts at a moderate computation overhead.
The source code: https://github.com/lslrh/DynaMask.
- Abstract(参考訳): 代表的なインスタンスセグメンテーションメソッドは、主に28*28グリッドのような固定解像度のマスクで異なるオブジェクトインスタンスを分割する。
しかし、低解像度のマスクは詳細な情報を失う一方、高解像度のマスクは二次計算のオーバーヘッドを負う。
各インスタンスに対して最適なバイナリマスクを予測するのは難しい作業です。
本稿では,異なるオブジェクトの提案に対して適切なマスクを動的に選択することを提案する。
まず、適応的な特徴集約を備えたデュアルレベル特徴ピラミッドネットワーク(FPN)を開発し、マスクグリッドの解像度を徐々に向上させ、オブジェクトの高品質なセグメンテーションを保証する。
具体的には、画像レベルのFPN(i-FPN)の異なる段階からの相補的コンテキストおよび詳細情報を組み込むために、効率的な領域レベルのトップダウンパス(r-FPN)を導入する。
そこで,大規模なマスクによる計算とメモリコストの増大を軽減するため,各インスタンスに最適なマスク解像度を選択するためのマスクスイッチモジュール(MSM)を開発し,高いセグメンテーション精度を維持しつつ高い効率を実現する。
ベルとホイッスルがなければ、提案手法、すなわちDynaMaskは、適度な計算オーバーヘッドで、他の最先端技術よりも一貫した、顕著なパフォーマンス改善をもたらす。
ソースコードはhttps://github.com/lslrh/dynamask。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection [11.390163890611246]
Mask R-CNNは、任意の形のシーンテキストの検出とスポッティングのための強力なベースラインとして広く採用されている。
1つの提案には複数のインスタンスが存在する可能性があるため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを劣化させるのが難しくなる。
本稿では,各画素をテキストや非テキストに分類するのではなく,マスクヘッドがインスタンス全体の形状を予測することを学習する事例認識型マスク学習を提案する。
論文 参考訳(メタデータ) (2021-09-08T04:32:29Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。