論文の概要: Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2212.00785v1
- Date: Thu, 1 Dec 2022 18:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:31:24.886493
- Title: Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs
- Title(参考訳): 画像テキストペアのみを用いたオープンワールドセマンティックセマンティックセグメンテーションのためのテキストグラウンドマスク生成学習
- Authors: Junbum Cha, Jonghwan Mun, Byungseok Roh
- Abstract要約: 画像中の任意の視覚概念を,濃密なアノテーションを伴わない画像テキストペアのみを用いて,学習するオープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、コントラスト学習(CL)を用いて多様な視覚概念を学習し、学習されたイメージレベルの理解をセグメンテーションタスクに適用することで、目覚ましい進歩を見せている。
そこで本研究では,TCL(Text-grounded Contrastive Learning)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.484851004093919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle open-world semantic segmentation, which aims at learning to segment
arbitrary visual concepts in images, by using only image-text pairs without
dense annotations. Existing open-world segmentation methods have shown
impressive advances by employing contrastive learning (CL) to learn diverse
visual concepts and adapting the learned image-level understanding to the
segmentation task. However, these methods based on CL have a discrepancy since
it only considers image-text level alignment in training time, while the
segmentation task requires region-text level alignment at test time. In this
paper, we propose a novel Text-grounded Contrastive Learning (TCL) framework to
directly align a text and a region described by the text to address the
train-test discrepancy. Our method generates a segmentation mask associated
with a given text, extracts grounded image embedding from the masked region,
and aligns it with text embedding via TCL. The framework addresses the
discrepancy by letting the model learn region-text level alignment instead of
image-text level alignment and encourages the model to directly improve the
quality of generated segmentation masks. In addition, for a rigorous and fair
comparison, we present a unified evaluation protocol with widely used 8
semantic segmentation datasets. TCL achieves state-of-the-art zero-shot
segmentation performance with large margins in all datasets. Code is available
at https://github.com/kakaobrain/tcl.
- Abstract(参考訳): 画像中の任意の視覚概念を,濃密なアノテーションを伴わない画像テキストペアのみを用いて,学習するオープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、コントラスト学習(CL)を用いて多様な視覚概念を学習し、学習されたイメージレベルの理解をセグメンテーションタスクに適用することで、目覚ましい進歩を見せている。
しかし、clに基づくこれらの方法は、トレーニング時間に画像-テキストレベルのアライメントのみを考慮し、セグメンテーションタスクにはテスト時間に領域-テキストレベルのアライメントが必要であるため、不一致がある。
本稿では,テキストとテキストによって記述された領域を直接アライメントして,列車テストの相違に対処する,新しいテキストグラウンド・コントラシティブ・ラーニング(TCL)フレームワークを提案する。
本手法は,与えられたテキストに関連付けられたセグメンテーションマスクを生成し,マスク領域から接地画像埋め込みを抽出し,TCLによるテキスト埋め込みと整合する。
このフレームワークは、画像テキストレベルのアライメントではなく、領域テキストレベルのアライメントをモデルに学習させ、生成したセグメンテーションマスクの質を直接改善させることによって、その相違に対処する。
さらに,厳密かつ公正な比較のために,広く用いられている8つのセマンティックセグメンテーションデータセットを用いた統一評価プロトコルを提案する。
TCLは、すべてのデータセットで大きなマージンを持つ最先端のゼロショットセグメンテーション性能を達成する。
コードはhttps://github.com/kakaobrain/tclで入手できる。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Text and Click inputs for unambiguous open vocabulary instance
segmentation [21.03169732771627]
そこで本研究では,画像入力としてモデルが取る新たなセグメンテーションプロセスであるText + Clickと,セグメンテーションにクラスを記述するテキストフレーズと,セグメンテーションにインスタンスを指定する1つのフォアグラウンドクリックを提案する。
ユーザが指定した1つのフォアグラウンドクリックとテキストプロンプトを組み合わせることで、モデルの重複や共起のセマンティックカテゴリをより曖昧にすることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T19:37:57Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Zero-shot Referring Image Segmentation with Global-Local Context
Features [8.77461711080319]
参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的としている。
本稿では,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション法を提案する。
実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-03-31T06:00:50Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - RegionCLIP: Region-based Language-Image Pretraining [94.29924084715316]
画像テキストペアを用いたコントラスト言語画像事前学習(CLIP)は,画像分類において顕著な結果を得た。
そこで我々は,CLIPを拡張して領域レベルの視覚表現を学習するRegionalCLIPという手法を提案する。
提案手法は,COCOデータセットとLVISデータセットの新たなカテゴリに対して,3.8 AP50と2.2 APの精度を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-16T18:39:36Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。