論文の概要: Amodal Instance Segmentation with Diffusion Shape Prior Estimation
- arxiv url: http://arxiv.org/abs/2409.18256v1
- Date: Fri, 4 Oct 2024 22:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 15:01:18.546442
- Title: Amodal Instance Segmentation with Diffusion Shape Prior Estimation
- Title(参考訳): 拡散形状事前推定によるアモーダル・インスタンス・セグメンテーション
- Authors: Minh Tran, Khoa Vo, Tri Nguyen, Ngan Le,
- Abstract要約: アモーダルインスタンス(AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方のセグメンテーション予測を含む興味深い課題を提示する。
従来は、アモーダルセグメンテーションを強化するために、トレーニングデータから収集した形状の事前情報に頼っていた。
最近の進歩は、潜在空間から画像を生成するために、広範囲なデータセットで事前訓練された条件付き拡散モデルの可能性を強調している。
- 参考スコア(独自算出の注目度): 10.064183379778388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal Instance Segmentation (AIS) presents an intriguing challenge, including the segmentation prediction of both visible and occluded parts of objects within images. Previous methods have often relied on shape prior information gleaned from training data to enhance amodal segmentation. However, these approaches are susceptible to overfitting and disregard object category details. Recent advancements highlight the potential of conditioned diffusion models, pretrained on extensive datasets, to generate images from latent space. Drawing inspiration from this, we propose AISDiff with a Diffusion Shape Prior Estimation (DiffSP) module. AISDiff begins with the prediction of the visible segmentation mask and object category, alongside occlusion-aware processing through the prediction of occluding masks. Subsequently, these elements are inputted into our DiffSP module to infer the shape prior of the object. DiffSP utilizes conditioned diffusion models pretrained on extensive datasets to extract rich visual features for shape prior estimation. Additionally, we introduce the Shape Prior Amodal Predictor, which utilizes attention-based feature maps from the shape prior to refine amodal segmentation. Experiments across various AIS benchmarks demonstrate the effectiveness of our AISDiff.
- Abstract(参考訳): Amodal Instance Segmentation (AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方のセグメンテーション予測を含む、興味深い課題を提示している。
従来は、アモーダルセグメンテーションを強化するために、トレーニングデータから収集した形状の事前情報に頼っていた。
しかし、これらのアプローチは対象圏の詳細を過度に適合させ無視する可能性がある。
最近の進歩は、潜在空間から画像を生成するために、広範囲なデータセットで事前訓練された条件付き拡散モデルの可能性を強調している。
そこで我々は,拡散形状優先推定(DiffSP)モジュールを用いたAISDiffを提案する。
AISDiffは、目に見えるセグメンテーションマスクとオブジェクトカテゴリの予測から始まり、オクルージョンマスクの予測を通じてオクルージョン認識処理を行う。
その後、これらの要素はDiffSPモジュールに入力され、オブジェクトの前の形状を推測します。
DiffSPは、広範囲なデータセットで事前訓練された条件付き拡散モデルを使用して、形状事前推定のためのリッチな視覚的特徴を抽出する。
さらに,アモーダルセグメンテーションに先立って,その形状から注目に基づく特徴写像を利用する形状優先アモーダル予測器を提案する。
様々なAISベンチマークによる実験では、AISDiffの有効性が示されています。
関連論文リスト
- High-Precision Dichotomous Image Segmentation via Probing Diffusion Capacity [69.32473738284374]
本稿では,拡散モデルにおける事前学習されたU-Netのポテンシャルを利用する拡散駆動セグメンテーションモデルDiffDISを提案する。
SDモデルに先立って、頑健な一般化機能とリッチで多目的な画像表現を活用することにより、高忠実で詳細な生成を保ちながら、推論時間を著しく短縮する。
DIS5Kデータセットの実験は、DiffDISの優位性を示し、合理化された推論プロセスを通じて最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-10-14T02:49:23Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Diffusion Model is Secretly a Training-free Open Vocabulary Semantic
Segmenter [47.29967666846132]
生成テキストから画像への拡散モデルは非常に効率的なオープン語彙セマンティックセマンティックセマンティクスである。
我々はDiffSegmenterという新しいトレーニング不要のアプローチを導入し、入力テキストに意味的に忠実な現実的なオブジェクトを生成する。
3つのベンチマークデータセットの大規模な実験により、提案したDiffSegmenterは、オープン語彙セマンティックセマンティックセグメンテーションの印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-09-06T06:31:08Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - Learning with Explicit Shape Priors for Medical Image Segmentation [17.110893665132423]
UNetモデルにおけるセグメント化性能を向上させるために,新しい形状先行モジュール(SPM)を提案する。
明示的な形状の先行は、大域的および局所的な形状の先行から成っている。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T11:12:35Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning Vector Quantized Shape Code for Amodal Blastomere Instance
Segmentation [33.558545104711186]
Amodalのインスタンスセグメンテーションは、オブジェクトが完全に見えない場合でも、オブジェクトの完全なシルエットを復元することを目的としている。
本稿では,入力特徴を中間形状コードに分類し,それらから完全なオブジェクト形状を復元することを提案する。
In vitro 受精 (IVF) クリニックにおけるブラストマーの正確な測定が可能となる。
論文 参考訳(メタデータ) (2020-12-02T06:17:28Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。