論文の概要: DFormer: Diffusion-guided Transformer for Universal Image Segmentation
- arxiv url: http://arxiv.org/abs/2306.03437v2
- Date: Thu, 8 Jun 2023 03:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 10:42:44.486322
- Title: DFormer: Diffusion-guided Transformer for Universal Image Segmentation
- Title(参考訳): DFormer:Universal Image Segmentationのための拡散誘導変換器
- Authors: Hefeng Wang, Jiale Cao, Rao Muhammad Anwer, Jin Xie, Fahad Shahbaz
Khan, Yanwei Pang
- Abstract要約: 提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
- 参考スコア(独自算出の注目度): 86.73405604947459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an approach, named DFormer, for universal image
segmentation. The proposed DFormer views universal image segmentation task as a
denoising process using a diffusion model. DFormer first adds various levels of
Gaussian noise to ground-truth masks, and then learns a model to predict
denoising masks from corrupted masks. Specifically, we take deep pixel-level
features along with the noisy masks as inputs to generate mask features and
attention masks, employing diffusion-based decoder to perform mask prediction
gradually. At inference, our DFormer directly predicts the masks and
corresponding categories from a set of randomly-generated masks. Extensive
experiments reveal the merits of our proposed contributions on different image
segmentation tasks: panoptic segmentation, instance segmentation, and semantic
segmentation. Our DFormer outperforms the recent diffusion-based panoptic
segmentation method Pix2Seq-D with a gain of 3.6% on MS COCO val2017 set.
Further, DFormer achieves promising semantic segmentation performance
outperforming the recent diffusion-based method by 2.2% on ADE20K val set. Our
source code and models will be publicly on https://github.com/cp3wan/DFormer
- Abstract(参考訳): 本稿では,ユニバーサルイメージセグメンテーションのためのアプローチであるdformerを提案する。
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
DFormerはまず、グラウンドトルースマスクに様々なレベルのガウスノイズを加え、その後、劣化したマスクからデノナイジングマスクを予測するモデルを学ぶ。
具体的には,ノイズの少ないマスクを入力とし,マスク特徴や注意マスクを生成し,拡散型デコーダを用いてマスク予測を徐々に行う。
推論では、ドフォーマーはランダムに生成されたマスクからマスクと対応するカテゴリを直接予測します。
広範な実験により,提案する画像分割タスクにおける提案手法の有用性が明らかになった。
我々のDFormerは,MS COCO val2017セットで3.6%向上し,近年の拡散型パノプティックセグメンテーション法Pix2Seq-Dより優れている。
さらに、dformer は ade20k val セット上で、最近の拡散ベース法を2.2%上回る有望な意味セグメンテーション性能を実現する。
ソースコードとモデルはhttps://github.com/cp3wan/dformerで公開します。
関連論文リスト
- SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete
Diffusion Process [102.18226145874007]
そこで我々は,異なるセグメンテーションモデルによって生成されるオブジェクトマスクの品質を高めるために,SegRefinerと呼ばれるモデルに依存しないソリューションを提案する。
SegRefinerは粗いマスクを入力として取り、離散拡散プロセスを用いてそれらを洗練する。
さまざまな種類の粗いマスクにわたるセグメンテーションメトリックとバウンダリメトリックの両方を一貫して改善する。
論文 参考訳(メタデータ) (2023-12-19T18:53:47Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - Generative Semantic Segmentation [40.57488730457299]
セマンティックセグメンテーションのための生成学習手法を提案する。
画像条件付きマスク生成問題として,セマンティックセグメンテーションを論じる。
実験により,GASは標準的なセマンティックセグメンテーション設定において,先行技術と競合して動作可能であることが示された。
論文 参考訳(メタデータ) (2023-03-20T17:55:37Z) - DynaMask: Dynamic Mask Selection for Instance Segmentation [21.50329070835023]
我々は,各インスタンスに最適なマスク解像度を選択するために,計算コストを無視できるマスクスイッチモジュール(MSM)を開発した。
提案手法,すなわちDynaMaskは,高い計算オーバーヘッドで,他の最先端技術よりも一貫した,顕著なパフォーマンス向上を実現する。
論文 参考訳(メタデータ) (2023-03-14T13:01:25Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - Mask Transfiner for High-Quality Instance Segmentation [95.74244714914052]
高品質で効率的なインスタンスセグメンテーションのためのMask Transfinerを提案する。
当社のアプローチでは, エラーが発生しやすい木ノードを検出し, エラーを並列に自己修正する。
私たちのコードとトレーニングされたモデルは、http://vis.xyz/pub/transfiner.comで公開されます。
論文 参考訳(メタデータ) (2021-11-26T18:58:22Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。