論文の概要: Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision
- arxiv url: http://arxiv.org/abs/2308.15512v2
- Date: Tue, 24 Oct 2023 13:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 23:42:45.620742
- Title: Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision
- Title(参考訳): Shatter and Gather: テキストスーパービジョンによる画像セグメンテーションの学習
- Authors: Dongwon Kim, Namyup Kim, Cuiling Lan, Suha Kwak
- Abstract要約: 入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
- 参考スコア(独自算出の注目度): 52.46081425504072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation, the task of segmenting any arbitrary entities
described in free-form texts, opens up a variety of vision applications.
However, manual labeling of training data for this task is prohibitively
costly, leading to lack of labeled data for training. We address this issue by
a weakly supervised learning approach using text descriptions of training
images as the only source of supervision. To this end, we first present a new
model that discovers semantic entities in input image and then combines such
entities relevant to text query to predict the mask of the referent. We also
present a new loss function that allows the model to be trained without any
further supervision. Our method was evaluated on four public benchmarks for
referring image segmentation, where it clearly outperformed the existing method
for the same task and recent open-vocabulary segmentation models on all the
benchmarks.
- Abstract(参考訳): イメージセグメンテーションを参照すると、自由形式のテキストで記述された任意のエンティティをセグメンテーションするタスクは、様々なビジョンアプリケーションを開きます。
しかし、このタスクのトレーニングデータの手作業によるラベル付けは極めてコストがかかるため、トレーニング用のラベル付きデータが不足する。
トレーニング画像のテキスト記述を唯一の監督源として用いた弱教師付き学習手法によりこの問題に対処する。
この目的のために,まず,入力画像中の意味的エンティティを探索し,テキストクエリに関連するエンティティを結合して参照者のマスクを予測する新しいモデルを提案する。
また、新たな損失関数を導入し、さらなる監視なしにモデルをトレーニングできるようにします。
提案手法は,画像分割参照のための4つの公開ベンチマークで評価され,同じタスクに対する既存の手法や,最近のオープンボカブラリーセグメンテーションモデルよりも明らかに優れていた。
関連論文リスト
- Language-guided Few-shot Semantic Segmentation [23.46604057006498]
そこで本稿では,言語情報のみを用いたセマンティックセマンティックセグメンテーションの課題に対処する革新的な手法を提案する。
提案手法は,テキストプロンプトから高品質な擬似セマンティックマスクを生成する,視覚言語によるマスク蒸留方式である。
2つのベンチマークデータセットを用いた実験により,言語誘導型少数ショットセマンティックセマンティックセグメンテーションの新たなベースラインが確立された。
論文 参考訳(メタデータ) (2023-11-23T09:08:49Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - From colouring-in to pointillism: revisiting semantic segmentation
supervision [48.637031591058175]
本稿では,意味的セグメンテーションアノテーションに対するポジリスト的アプローチを提案する。
Open Imagesデータセットで4,171のクラスに2260万のポイントラベルを収集してリリースしました。
論文 参考訳(メタデータ) (2022-10-25T16:42:03Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。