論文の概要: Weakly-supervised segmentation of referring expressions
- arxiv url: http://arxiv.org/abs/2205.04725v2
- Date: Thu, 12 May 2022 07:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 17:41:55.931387
- Title: Weakly-supervised segmentation of referring expressions
- Title(参考訳): 参照表現の弱教師付きセグメンテーション
- Authors: Robin Strudel, Ivan Laptev, Cordelia Schmid
- Abstract要約: テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
- 参考スコア(独自算出の注目度): 81.73850439141374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding localizes regions (boxes or segments) in the image
corresponding to given referring expressions. In this work we address image
segmentation from referring expressions, a problem that has so far only been
addressed in a fully-supervised setting. A fully-supervised setup, however,
requires pixel-wise supervision and is hard to scale given the expense of
manual annotation. We therefore introduce a new task of weakly-supervised image
segmentation from referring expressions and propose Text grounded semantic
SEGgmentation (TSEG) that learns segmentation masks directly from image-level
referring expressions without pixel-level annotations. Our transformer-based
method computes patch-text similarities and guides the classification objective
during training with a new multi-label patch assignment mechanism. The
resulting visual grounding model segments image regions corresponding to given
natural language expressions. Our approach TSEG demonstrates promising results
for weakly-supervised referring expression segmentation on the challenging
PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when
evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.
- Abstract(参考訳): ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。
本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。
しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。
そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。
本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。
得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。
我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。
TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。
関連論文リスト
- SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-04-03T16:24:39Z) - Zero-shot Referring Image Segmentation with Global-Local Context
Features [8.77461711080319]
参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的としている。
本稿では,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション法を提案する。
実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-03-31T06:00:50Z) - Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-17T08:29:33Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。