Fugu-MT 論文翻訳(概要): A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

論文の概要: A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting

arxiv url: http://arxiv.org/abs/2401.10227v1
Date: Thu, 18 Jan 2024 18:59:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:24:40.114778
Title: A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting
Title（参考訳）: パンオプティカルセグメンテーションとマスクインパインティングのための簡易な潜伏拡散法
Authors: Wouter Van Gansbeke, Bert De Brabandere
Abstract要約: この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。生成モデルを使用することで、インタラクティブなセグメンテーションに応用できるマスクの完成や塗装の探索が解き放たれる。
参考スコア（独自算出の注目度）: 3.0978367490767624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoptic and instance segmentation networks are often trained with specialized object detection modules, complex loss functions, and ad-hoc post-processing steps to handle the permutation-invariance of the instance masks. This work builds upon Stable Diffusion and proposes a latent diffusion approach for panoptic segmentation, resulting in a simple architecture which omits these complexities. Our training process consists of two steps: (1) training a shallow autoencoder to project the segmentation masks to latent space; (2) training a diffusion model to allow image-conditioned sampling in latent space. The use of a generative model unlocks the exploration of mask completion or inpainting, which has applications in interactive segmentation. The experimental validation yields promising results for both panoptic segmentation and mask inpainting. While not setting a new state-of-the-art, our model's simplicity, generality, and mask completion capability are desirable properties.
Abstract（参考訳）: panopticとインスタンスセグメンテーションネットワークは、しばしば特別なオブジェクト検出モジュール、複雑な損失関数、インスタンスマスクの置換不分散を処理するアドホックな後処理ステップで訓練される。この研究は安定拡散を基盤とし、パンオプティカルセグメンテーションの潜在拡散アプローチを提案し、これらの複雑さを省略する単純なアーキテクチャを生み出している。トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。生成モデルの使用は、対話的なセグメンテーションに応用できるマスク補完やインペインティングの探求を解き放ちます。実験による検証は、panoptic segmentation と mask inpainting の両方に有望な結果をもたらす。新たな最先端を設定できないが、モデルの単純さ、汎用性、マスク補完能力は望ましい特性である。

関連論文リスト

Evolved Hierarchical Masking for Self-Supervised Learning [49.77271430882176]
既存のマスケ画像モデリング手法では、固定マスクパターンを適用して自己指導型トレーニングを指導する。本稿では,自己教師型学習における一般的な視覚的手がかりモデリングを追求する階層型マスキング手法を提案する。
論文参考訳（メタデータ） (2025-04-12T09:40:14Z)
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。 HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文参考訳（メタデータ） (2025-03-17T10:29:08Z)
Towards Fine-grained Interactive Segmentation in Images and Videos [21.22536962888316]
SAM2のバックボーン上に構築されたSAM2Refinerフレームワークを提案する。このアーキテクチャによりSAM2は、画像とビデオの両方のきめ細かいセグメンテーションマスクを生成することができる。さらに,マルチスケールのカスケード構造を用いてマスク特徴とエンコーダの階層的表現を融合させることによりマスクリファインメントモジュールを考案した。
論文参考訳（メタデータ） (2025-02-12T06:38:18Z)
Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文参考訳（メタデータ） (2024-04-22T22:02:19Z)
DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文参考訳（メタデータ） (2024-02-03T06:49:42Z)
Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文参考訳（メタデータ） (2023-09-04T05:34:19Z)
Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。 MDSMの性能はベースライン法を+10.13で上回った。
論文参考訳（メタデータ） (2023-07-17T16:07:07Z)
DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文参考訳（メタデータ） (2023-06-06T06:33:32Z)
Weakly-Supervised Concealed Object Segmentation with SAM-based Pseudo Labeling and Multi-scale Feature Grouping [40.07070188661184]
Wakly-Supervised Concealed Object (WSCOS) は、周囲の環境とうまく融合したオブジェクトを分割することを目的としている。内在的な類似性のため、背景から隠された物体を区別することは困難である。これら2つの課題に対処する新しいWSCOS手法を提案する。
論文参考訳（メタデータ） (2023-05-18T14:31:34Z)
A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文参考訳（メタデータ） (2023-03-14T17:58:34Z)
Exploiting Shape Cues for Weakly Supervised Semantic Segmentation [15.791415215216029]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は、画像レベルのラベルのみをトレーニング用として、画素単位のクラス予測を生成することを目的としている。畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を補うために形状情報を活用することを提案する。我々は、クラスと色親和性の両方を考慮した新しい改良手法により、オンライン方式で予測をさらに洗練する。
論文参考訳（メタデータ） (2022-08-08T17:25:31Z)
BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文参考訳（メタデータ） (2021-05-25T04:58:51Z)
The Devil is in the Boundary: Exploiting Boundary Representation for Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文参考訳（メタデータ） (2020-11-26T11:26:06Z)
Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文参考訳（メタデータ） (2020-03-26T02:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。