論文の概要: Weakly-supervised segmentation of referring expressions
- arxiv url: http://arxiv.org/abs/2205.04725v2
- Date: Thu, 12 May 2022 07:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 17:41:55.931387
- Title: Weakly-supervised segmentation of referring expressions
- Title(参考訳): 参照表現の弱教師付きセグメンテーション
- Authors: Robin Strudel, Ivan Laptev, Cordelia Schmid
- Abstract要約: テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
- 参考スコア(独自算出の注目度): 81.73850439141374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual grounding localizes regions (boxes or segments) in the image
corresponding to given referring expressions. In this work we address image
segmentation from referring expressions, a problem that has so far only been
addressed in a fully-supervised setting. A fully-supervised setup, however,
requires pixel-wise supervision and is hard to scale given the expense of
manual annotation. We therefore introduce a new task of weakly-supervised image
segmentation from referring expressions and propose Text grounded semantic
SEGgmentation (TSEG) that learns segmentation masks directly from image-level
referring expressions without pixel-level annotations. Our transformer-based
method computes patch-text similarities and guides the classification objective
during training with a new multi-label patch assignment mechanism. The
resulting visual grounding model segments image regions corresponding to given
natural language expressions. Our approach TSEG demonstrates promising results
for weakly-supervised referring expression segmentation on the challenging
PhraseCut and RefCOCO datasets. TSEG also shows competitive performance when
evaluated in a zero-shot setting for semantic segmentation on Pascal VOC.
- Abstract(参考訳): ビジュアルグラウンドは、与えられた参照表現に対応する画像内の領域(ボックスまたはセグメント)をローカライズする。
本研究では,これまで完全に教師された環境でのみ対処されてきた,参照表現からのイメージセグメンテーションに対処する。
しかし、完全な教師付きセットアップではピクセル単位での監視が必要であり、手動のアノテーションを犠牲にしてスケールするのは困難である。
そこで我々は、参照表現から弱教師付きイメージセグメンテーションのタスクを導入し、ピクセルレベルのアノテーションなしで画像レベルの参照表現から直接セグメンテーションマスクを学習するテキストベースセマンティックセグメンテーション(TSEG)を提案する。
本手法は,パッチテキストの類似性を計算し,新しいマルチラベルパッチ割り当て機構を用いて訓練中の分類目標を導出する。
得られた視覚的接地モデルは、与えられた自然言語表現に対応する画像領域をセグメント化する。
我々のアプローチTSEGは、困難であるPhraseCutとRefCOCOデータセット上で、弱教師付き参照表現セグメンテーションのための有望な結果を示す。
TSEGはまた、Pascal VOC上のセマンティックセグメンテーションのためのゼロショット設定で評価した場合の競合性能を示す。
- 全文 参考訳へのリンク
関連論文リスト
- Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Instance Segmentation of Unlabeled Modalities via Cyclic Segmentation
GAN [27.936725483892076]
本稿では,画像翻訳とインスタンスセグメンテーションを共同で行うCysic Generative Adrial Network(CySGAN)を提案する。
注記電子顕微鏡(en:Annotated electron microscopy, EM)画像とラベルなし拡張顕微鏡(en:Unlabeled expansion microscopy, ExM)データを用いて, ニューロンの3次元セグメンテーションの課題についてベンチマークを行った。
論文 参考訳(メタデータ) (2022-04-06T20:46:39Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - ACDC: The Adverse Conditions Dataset with Correspondences for Semantic
Driving Scene Understanding [104.34360430611089]
自動運転車のレベル5の自律性には、どんな視覚条件でも入力画像を解析できる堅牢な視覚知覚システムが必要である。
有害視覚条件におけるセマンティックセグメンテーション手法のトレーニングとテストのためのアドバースコンディションデータセットであるACDCを紹介します。
詳細な実証的研究は、ACDCの有害ドメインが最先端の監督および監督されていないアプローチにもたらす課題を示しています。
論文 参考訳(メタデータ) (2021-04-27T18:00:05Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。