論文の概要: FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.20105v1
- Date: Fri, 29 Mar 2024 10:38:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:54:04.671971
- Title: FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models
- Title(参考訳): FreeSeg-Diff:拡散モデルによる学習自由な開語彙セグメンテーション
- Authors: Barbara Toniella Corradini, Mustafa Shukor, Paul Couairon, Guillaume Couairon, Franco Scarselli, Matthieu Cord,
- Abstract要約: 我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
- 参考スコア(独自算出の注目度): 56.71672127740099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have exhibited unprecedented capabilities in tackling many domains and tasks. Models such as CLIP are currently widely used to bridge cross-modal representations, and text-to-image diffusion models are arguably the leading models in terms of realistic image generation. Image generative models are trained on massive datasets that provide them with powerful internal spatial representations. In this work, we explore the potential benefits of such representations, beyond image generation, in particular, for dense visual prediction tasks. We focus on the task of image segmentation, which is traditionally solved by training models on closed-vocabulary datasets, with pixel-level annotations. To avoid the annotation cost or training large diffusion models, we constraint our setup to be zero-shot and training-free. In a nutshell, our pipeline leverages different and relatively small-sized, open-source foundation models for zero-shot open-vocabulary segmentation. The pipeline is as follows: the image is passed to both a captioner model (i.e. BLIP) and a diffusion model (i.e., Stable Diffusion Model) to generate a text description and visual representation, respectively. The features are clustered and binarized to obtain class agnostic masks for each object. These masks are then mapped to a textual class, using the CLIP model to support open-vocabulary. Finally, we add a refinement step that allows to obtain a more precise segmentation mask. Our approach (dubbed FreeSeg-Diff), which does not rely on any training, outperforms many training-based approaches on both Pascal VOC and COCO datasets. In addition, we show very competitive results compared to the recent weakly-supervised segmentation approaches. We provide comprehensive experiments showing the superiority of diffusion model features compared to other pretrained models. Project page: https://bcorrad.github.io/freesegdiff/
- Abstract(参考訳): ファンデーションモデルは、多くのドメインやタスクに取り組む上で、前例のない能力を示してきた。
CLIPのようなモデルは、現在、クロスモーダル表現のブリッジに広く使われており、テキスト・ツー・イメージ拡散モデルは、現実的な画像生成における主要なモデルであることは間違いない。
画像生成モデルは、強力な内部空間表現を提供する巨大なデータセットに基づいて訓練される。
本研究では,画像生成,特に高密度な視覚的予測タスクにおいて,このような表現の潜在的な利点について検討する。
画像のセグメンテーションは、従来、ピクセルレベルのアノテーションを用いて、クローズドボキャブラリデータセットのトレーニングモデルによって解決されてきた。
アノテーションのコストや大規模な拡散モデルのトレーニングを避けるため、セットアップをゼロショットでトレーニング不要にすることを制約します。
簡単に言うと、私たちのパイプラインは、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用しています。
画像はキャプタモデル(BLIP)と拡散モデル(安定拡散モデル)の両方に渡され、それぞれテキスト記述と視覚表現を生成する。
これらの特徴はクラスタ化され、2項化され、各オブジェクトのクラス非依存マスクを取得する。
これらのマスクは、オープン語彙をサポートするためにCLIPモデルを使用して、テキストクラスにマップされる。
最後に、より精密なセグメンテーションマスクを得るための洗練されたステップを追加します。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
さらに、近年の弱い教師付きセグメンテーション手法と比較して、非常に競争力のある結果を示す。
我々は,他の事前学習モデルと比較して拡散モデルの特徴が優れていることを示す包括的実験を行った。
プロジェクトページ: https://bcorrad.github.io/freesegdiff/
関連論文リスト
- Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Masked Diffusion Models Are Fast Distribution Learners [32.485235866596064]
拡散モデルは、スクラッチからきめ細かい視覚情報を学習するために一般的に訓練されている。
まず, 素数分布を学習するためにモデルの事前学習を行うことにより, 強い拡散モデルを訓練するのに十分であることを示す。
そして、事前学習されたモデルは、様々な生成タスクに対して効率的に微調整することができる。
論文 参考訳(メタデータ) (2023-06-20T08:02:59Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors [40.959642112729234]
Peekabooは、ゼロショット、オープンボキャブラリ、教師なしセマンティックグラウンド技術である。
基礎となる拡散モデルがRGB画像でのみ訓練されているにもかかわらず、Peekabooが透過性のある画像を生成するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-11-23T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。