論文の概要: Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation
- arxiv url: http://arxiv.org/abs/2404.06542v1
- Date: Tue, 9 Apr 2024 18:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-11 16:28:25.442706
- Title: Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation
- Title(参考訳): オフライン拡散付加型プロトタイプ生成による学習自由なオープンボキャブラリセグメンテーション
- Authors: Luca Barsellotti, Roberto Amoroso, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 44.008094698200026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation aims at segmenting arbitrary categories expressed in textual form. Previous works have trained over large amounts of image-caption pairs to enforce pixel-level multimodal alignments. However, captions provide global information about the semantics of a given image but lack direct localization of individual concepts. Further, training on large-scale datasets inevitably brings significant computational costs. In this paper, we propose FreeDA, a training-free diffusion-augmented method for open-vocabulary semantic segmentation, which leverages the ability of diffusion models to visually localize generated concepts and local-global similarities to match class-agnostic regions with semantic classes. Our approach involves an offline stage in which textual-visual reference embeddings are collected, starting from a large set of captions and leveraging visual and semantic contexts. At test time, these are queried to support the visual matching process, which is carried out by jointly considering class-agnostic regions and global semantic similarities. Extensive analyses demonstrate that FreeDA achieves state-of-the-art performance on five datasets, surpassing previous methods by more than 7.0 average points in terms of mIoU and without requiring any training.
- Abstract(参考訳): Open-vocabulary semantic segmentationは、テキスト形式で表現された任意のカテゴリのセグメンテーションを目的としている。
これまでは、画素レベルのマルチモーダルアライメントを強制するために、大量の画像キャプチャペアをトレーニングしてきた。
しかし、キャプションは与えられた画像の意味についてグローバルな情報を提供するが、個々の概念の直接的位置化は欠如している。
さらに、大規模データセットのトレーニングは、必然的にかなりの計算コストをもたらす。
本稿では,開語彙セマンティックセマンティックセマンティクスのための学習自由拡散拡張手法FreeDAを提案する。これは,クラス非依存領域とセマンティクスクラスとを対応付けるために,生成した概念と局所的な類似点を視覚的にローカライズする拡散モデルの能力を利用する。
我々のアプローチは、大量のキャプションから始まり、視覚的および意味的なコンテキストを活用するために、テキスト-視覚的参照埋め込みを収集するオフラインステージを含む。
テスト時にこれらは、クラスに依存しない領域とグローバルな意味的類似性を共同で検討し、視覚的マッチングプロセスをサポートするためにクエリされる。
大規模な分析によると、FreeDAは5つのデータセットで最先端のパフォーマンスを達成し、mIoUの点で以前のメソッドを7.0ポイント以上上回り、トレーニングを必要とせずに達成している。
関連論文リスト
- Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。