Fugu-MT 論文翻訳(概要): Weakly-supervised segmentation of referring expressions

論文の概要: Weakly-supervised segmentation of referring expressions

arxiv url: http://arxiv.org/abs/2205.04725v2
Date: Thu, 12 May 2022 07:17:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-14 17:41:55.931387
Title: Weakly-supervised segmentation of referring expressions
Title（参考訳）: 参照表現の弱教師付きセグメンテーション
Authors: Robin Strudel, Ivan Laptev, Cordelia Schmid
Abstract要約: テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
参考スコア（独自算出の注目度）: 81.73850439141374
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual grounding localizes regions (boxes or segments) in the image corresponding to given referring expressions. In this work we address image segmentation from referring expressions, a problem that has so far only been addressed in a fully-supervised setting. A fully-supervised setup, however, requires pixel-wise supervision and is hard to scale given the expense of manual annotation. We therefore introduce a new task of weakly-supervised image segmentation from referring expressions and propose Text grounded semantic SEGgmentation (TSEG) that learns segmentation masks directly from image-level referring expressions without pixel-level annotations. Our transformer-based method computes patch-text similarities and guides the classification objective during training with a new multi-label patch assignment mechanism. The resulting visual grounding model segments image regions corresponding to given natural language expressions. Our approach TSEG demonstrates promising results for weakly-supervised referring expression segmentation on the challenging PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.
Abstract（参考訳）: ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。 TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。

関連論文リスト

InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはオープン語彙セマンティックセグメンテーションに取り組むテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリング(Contrastive Soft Clustering, CSC)を導入し, 導出マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。 SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文参考訳（メタデータ） (2024-01-22T09:41:05Z)
Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。 TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文参考訳（メタデータ） (2023-10-27T10:52:50Z)
Shatter and Gather: Learning Referring Image Segmentation with Text Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文参考訳（メタデータ） (2023-08-29T15:39:15Z)
Associating Spatially-Consistent Grouping with Text-supervised Semantic Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。 59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文参考訳（メタデータ） (2023-04-03T16:24:39Z)
Zero-shot Referring Image Segmentation with Global-Local Context Features [8.77461711080319]
参照画像セグメンテーション(RIS)は、入力画像の領域に接する参照表現を与えられたセグメンテーションマスクを見つけることを目的としている。本稿では,CLIPから事前学習したクロスモーダル知識を利用した,シンプルで効果的なゼロショット参照画像セグメンテーション法を提案する。実験では,提案手法は,タスクのゼロショットベースラインや,弱教師付き参照表現セグメンテーションにおいても,かなりのマージンで性能を向上する。
論文参考訳（メタデータ） (2023-03-31T06:00:50Z)
Fully and Weakly Supervised Referring Expression Segmentation with End-to-End Learning [50.40482222266927]
Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
論文参考訳（メタデータ） (2022-12-17T08:29:33Z)
Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文参考訳（メタデータ） (2022-12-05T16:24:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。