論文の概要: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2303.04803v4
- Date: Wed, 5 Apr 2023 17:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:20:59.876054
- Title: Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion
Models
- Title(参考訳): テキストと画像の拡散モデルを用いたオープンボキャブラリパノプティックセグメンテーション
- Authors: Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang,
Shalini De Mello
- Abstract要約: ODISE: オープンボキャブラリ拡散に基づくパノプティカルセグメンテーションについて述べる。
事前訓練されたテキストイメージ拡散と識別モデルを統一し、オープン語彙セグメンテーションを実行する。
オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。
- 参考スコア(独自算出の注目度): 44.17304848026688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ODISE: Open-vocabulary DIffusion-based panoptic SEgmentation,
which unifies pre-trained text-image diffusion and discriminative models to
perform open-vocabulary panoptic segmentation. Text-to-image diffusion models
have the remarkable ability to generate high-quality images with diverse
open-vocabulary language descriptions. This demonstrates that their internal
representation space is highly correlated with open concepts in the real world.
Text-image discriminative models like CLIP, on the other hand, are good at
classifying images into open-vocabulary labels. We leverage the frozen internal
representations of both these models to perform panoptic segmentation of any
category in the wild. Our approach outperforms the previous state of the art by
significant margins on both open-vocabulary panoptic and semantic segmentation
tasks. In particular, with COCO training only, our method achieves 23.4 PQ and
30.0 mIoU on the ADE20K dataset, with 8.3 PQ and 7.9 mIoU absolute improvement
over the previous state of the art. We open-source our code and models at
https://github.com/NVlabs/ODISE .
- Abstract(参考訳): 本稿では,事前学習されたテキスト画像拡散と識別モデルを統合し,オープンボカブラリのパンオプティカルセグメンテーションを行うオープンボカブラリ拡散ベースのパンオプティカルセグメンテーションを提案する。
テキストから画像への拡散モデルは、多様なオープンボキャブラリー言語記述を持つ高品質な画像を生成する能力を持つ。
このことは、それらの内部表現空間が実世界の開概念と強く相関していることを示している。
一方、CLIPのようなテキスト画像識別モデルは、画像のオープン語彙ラベルへの分類に長けている。
我々は、これらのモデルの凍結した内部表現を利用して、野生の任意のカテゴリーの汎視的セグメンテーションを行う。
オープン・ボキャブラリ・パノプティクスとセマンティック・セグメンテーションの両タスクにおいて,従来の技術状況よりも優れていた。
特に,COCOトレーニングのみの場合,ADE20Kデータセット上で23.4 PQと30.0 mIoUを達成し,従来の技術に比べて8.3 PQと7.9 mIoUを絶対的に改善した。
私たちはコードとモデルをhttps://github.com/NVlabs/ODISEでオープンソース化しています。
関連論文リスト
- Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - A Simple Framework for Open-Vocabulary Zero-Shot Segmentation [36.01531912271202]
SimZSSはオープン語彙のZero-Shotセグメンテーションのためのフレームワークである。
テキストと言語知識の離散的な性質を利用して、字幕内の局所的な概念をピンポイントする。
SimZSSは,8つのベンチマークデータセットのうち7つについて,15分以内で最先端の結果を達成している。
論文 参考訳(メタデータ) (2024-06-23T11:57:08Z) - Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。