論文の概要: A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask
Inpainting
- arxiv url: http://arxiv.org/abs/2401.10227v1
- Date: Thu, 18 Jan 2024 18:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:24:40.114778
- Title: A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask
Inpainting
- Title(参考訳): パンオプティカルセグメンテーションとマスクインパインティングのための簡易な潜伏拡散法
- Authors: Wouter Van Gansbeke, Bert De Brabandere
- Abstract要約: この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルを使用することで、インタラクティブなセグメンテーションに応用できるマスクの完成や塗装の探索が解き放たれる。
- 参考スコア(独自算出の注目度): 3.0978367490767624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic and instance segmentation networks are often trained with
specialized object detection modules, complex loss functions, and ad-hoc
post-processing steps to handle the permutation-invariance of the instance
masks. This work builds upon Stable Diffusion and proposes a latent diffusion
approach for panoptic segmentation, resulting in a simple architecture which
omits these complexities. Our training process consists of two steps: (1)
training a shallow autoencoder to project the segmentation masks to latent
space; (2) training a diffusion model to allow image-conditioned sampling in
latent space. The use of a generative model unlocks the exploration of mask
completion or inpainting, which has applications in interactive segmentation.
The experimental validation yields promising results for both panoptic
segmentation and mask inpainting. While not setting a new state-of-the-art, our
model's simplicity, generality, and mask completion capability are desirable
properties.
- Abstract(参考訳): panopticとインスタンスセグメンテーションネットワークは、しばしば特別なオブジェクト検出モジュール、複雑な損失関数、インスタンスマスクの置換不分散を処理するアドホックな後処理ステップで訓練される。
この研究は安定拡散を基盤とし、パンオプティカルセグメンテーションの潜在拡散アプローチを提案し、これらの複雑さを省略する単純なアーキテクチャを生み出している。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルの使用は、対話的なセグメンテーションに応用できるマスク補完やインペインティングの探求を解き放ちます。
実験による検証は、panoptic segmentation と mask inpainting の両方に有望な結果をもたらす。
新たな最先端を設定できないが、モデルの単純さ、汎用性、マスク補完能力は望ましい特性である。
関連論文リスト
- Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。
総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-08T20:07:18Z) - Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion [10.873354142424697]
本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。
我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。
我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文 参考訳(メタデータ) (2023-06-06T06:33:32Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。
畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。
我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文 参考訳(メタデータ) (2022-08-08T17:25:31Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。