論文の概要: Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2212.00785v2
- Date: Sun, 26 Mar 2023 11:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:20:32.301988
- Title: Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs
- Title(参考訳): 画像テキストペアのみを用いたオープンワールドセマンティックセマンティックセグメンテーションのためのテキストグラウンドマスク生成学習
- Authors: Junbum Cha, Jonghwan Mun, Byungseok Roh
- Abstract要約: 我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.484851004093919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle open-world semantic segmentation, which aims at learning to segment
arbitrary visual concepts in images, by using only image-text pairs without
dense annotations. Existing open-world segmentation methods have shown
impressive advances by employing contrastive learning (CL) to learn diverse
visual concepts and transferring the learned image-level understanding to the
segmentation task. However, these CL-based methods suffer from a train-test
discrepancy, since it only considers image-text alignment during training,
whereas segmentation requires region-text alignment during testing. In this
paper, we proposed a novel Text-grounded Contrastive Learning (TCL) framework
that enables a model to directly learn region-text alignment. Our method
generates a segmentation mask for a given text, extracts text-grounded image
embedding from the masked region, and aligns it with text embedding via TCL. By
learning region-text alignment directly, our framework encourages a model to
directly improve the quality of generated segmentation masks. In addition, for
a rigorous and fair comparison, we present a unified evaluation protocol with
widely used 8 semantic segmentation datasets. TCL achieves state-of-the-art
zero-shot segmentation performances with large margins in all datasets. Code is
available at https://github.com/kakaobrain/tcl.
- Abstract(参考訳): 画像中の任意の視覚概念を,濃密なアノテーションを伴わない画像テキストペアのみを用いて,学習するオープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、コントラスト学習(cl)を用いて多様な視覚概念を学習し、学習された画像レベルの理解をセグメンテーションタスクに移すことで印象的な進歩を示している。
しかし、これらのclベースの手法はトレーニング中の画像-テキストアライメントのみを考慮し、セグメンテーションはテスト時に領域-テキストアライメントを必要とするため、トレインテストの不一致に苦しむ。
本稿では,モデルが地域テキストアライメントを直接学習することを可能にする,新しいテキストグラウンド・コントラシブ・ラーニング(TCL)フレームワークを提案する。
本手法は,与えられたテキストに対するセグメンテーションマスクを生成し,マスク領域からテキスト地上画像を抽出し,TCLによるテキスト埋め込みと整合する。
我々のフレームワークは,地域テキストのアライメントを直接学習することにより,生成したセグメンテーションマスクの質を直接改善するモデルを奨励する。
さらに,厳密かつ公正な比較のために,広く用いられている8つのセマンティックセグメンテーションデータセットを用いた統一評価プロトコルを提案する。
TCLは、すべてのデータセットで大きなマージンを持つ最先端のゼロショットセグメンテーション性能を達成する。
コードはhttps://github.com/kakaobrain/tclで入手できる。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Text and Click inputs for unambiguous open vocabulary instance
segmentation [21.03169732771627]
そこで本研究では,画像入力としてモデルが取る新たなセグメンテーションプロセスであるText + Clickと,セグメンテーションにクラスを記述するテキストフレーズと,セグメンテーションにインスタンスを指定する1つのフォアグラウンドクリックを提案する。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルの重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T19:37:57Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Zero-shot Referring Image Segmentation with Global-Local Context
Features [8.77461711080319]
参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的としている。
本稿では,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション法を提案する。
実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-03-31T06:00:50Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。