論文の概要: Conditional Latent Diffusion Models for Zero-Shot Instance Segmentation
- arxiv url: http://arxiv.org/abs/2508.04122v1
- Date: Wed, 06 Aug 2025 06:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.570776
- Title: Conditional Latent Diffusion Models for Zero-Shot Instance Segmentation
- Title(参考訳): ゼロショットインスタンスセグメンテーションのための条件付き潜時拡散モデル
- Authors: Maximilian Ulmer, Wout Boerdijk, Rudolph Triebel, Maximilian Durner,
- Abstract要約: OC-DiTは、オブジェクト中心の予測のために設計された拡散モデルのクラスである。
本稿では,インスタンスマスクを生成する条件付き潜在拡散フレームワークを提案する。
我々はこれらのモデルを、新しく作成された大規模合成データセットでトレーニングする。
- 参考スコア(独自算出の注目度): 16.225638630932675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents OC-DiT, a novel class of diffusion models designed for object-centric prediction, and applies it to zero-shot instance segmentation. We propose a conditional latent diffusion framework that generates instance masks by conditioning the generative process on object templates and image features within the diffusion model's latent space. This allows our model to effectively disentangle object instances through the diffusion process, which is guided by visual object descriptors and localized image cues. Specifically, we introduce two model variants: a coarse model for generating initial object instance proposals, and a refinement model that refines all proposals in parallel. We train these models on a newly created, large-scale synthetic dataset comprising thousands of high-quality object meshes. Remarkably, our model achieves state-of-the-art performance on multiple challenging real-world benchmarks, without requiring any retraining on target data. Through comprehensive ablation studies, we demonstrate the potential of diffusion models for instance segmentation tasks.
- Abstract(参考訳): 本稿では、オブジェクト中心の予測のために設計された新しい拡散モデルであるOC-DiTを、ゼロショットのインスタンスセグメンテーションに適用する。
本稿では,オブジェクトテンプレートに生成過程を条件付け,遅延空間内の画像特徴を条件付けすることで,インスタンスマスクを生成する条件付き潜時拡散フレームワークを提案する。
これにより、視覚オブジェクト記述子と局所画像キューによって導かれる拡散プロセスを通じて、オブジェクトインスタンスを効果的に切り離すことができる。
具体的には、初期オブジェクトインスタンスの提案を生成する粗いモデルと、すべての提案を並列に洗練する洗練されたモデルである。
これらのモデルを、数千の高品質なオブジェクトメッシュからなる、新しく作成された大規模合成データセットでトレーニングする。
注目すべきは、ターゲットデータの再トレーニングを必要とせずに、複数の挑戦的な実世界のベンチマークで最先端のパフォーマンスを実現することである。
包括的アブレーション研究を通じて,実例分割タスクにおける拡散モデルの可能性を示す。
関連論文リスト
- Tackling Few-Shot Segmentation in Remote Sensing via Inpainting Diffusion Model [0.3749861135832073]
数ショットのセグメンテーションタスクでは、モデルは通常、豊富なアノテーションを持つベースクラスで訓練され、後に限られた例を持つ新しいクラスに適応する。
本稿では,拡散モデルを利用して新しいクラスオブジェクトを多種多様に生成する簡単な手法を提案する。
イメージインペイントタスクとして問題をフレーミングすることにより,様々な環境下での新規クラスの可視例を合成する。
論文 参考訳(メタデータ) (2025-03-05T02:08:51Z) - Accelerated Diffusion Models via Speculative Sampling [89.43940130493233]
投機的サンプリングは、大規模言語モデルにおける推論を加速する一般的な手法である。
我々は投機的サンプリングを拡散モデルに拡張し、連続したベクトル値のマルコフ連鎖を介してサンプルを生成する。
本稿では,ドラフトモデルをトレーニングする必要のない,シンプルで効果的なアプローチを含む,さまざまなドラフト戦略を提案する。
論文 参考訳(メタデータ) (2025-01-09T16:50:16Z) - [MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。
離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文 参考訳(メタデータ) (2024-12-09T18:59:56Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based Diffusion Models and MCMC [102.64648158034568]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-12T18:59:08Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。