論文の概要: Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning
- arxiv url: http://arxiv.org/abs/2212.10278v1
- Date: Sat, 17 Dec 2022 08:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:33:16.926862
- Title: Fully and Weakly Supervised Referring Expression Segmentation with
End-to-End Learning
- Title(参考訳): エンドツーエンド学習による参照表現セグメンテーションの完全化と弱化
- Authors: Hui Li, Mingjie Sun, Jimin Xiao, Eng Gee Lim, and Yao Zhao
- Abstract要約: Referring Expression(RES)は、与えられた言語表現に従ってターゲットをローカライズし、セグメンテーションすることを目的としている。
そこで我々は,カーネル分割パイプラインを並列に構築し,より分離し,局所化とセグメント化のステップと相互作用する。
我々の手法は単純だが驚くほど効果的であり、完全に教師された設定と弱い設定において、従来の最先端のRES手法よりも優れている。
- 参考スコア(独自算出の注目度): 50.40482222266927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES), which is aimed at localizing and
segmenting the target according to the given language expression, has drawn
increasing attention. Existing methods jointly consider the localization and
segmentation steps, which rely on the fused visual and linguistic features for
both steps. We argue that the conflict between the purpose of identifying an
object and generating a mask limits the RES performance. To solve this problem,
we propose a parallel position-kernel-segmentation pipeline to better isolate
and then interact the localization and segmentation steps. In our pipeline,
linguistic information will not directly contaminate the visual feature for
segmentation. Specifically, the localization step localizes the target object
in the image based on the referring expression, and then the visual kernel
obtained from the localization step guides the segmentation step. This pipeline
also enables us to train RES in a weakly-supervised way, where the pixel-level
segmentation labels are replaced by click annotations on center and corner
points. The position head is fully-supervised and trained with the click
annotations as supervision, and the segmentation head is trained with
weakly-supervised segmentation losses. To validate our framework on a
weakly-supervised setting, we annotated three RES benchmark datasets (RefCOCO,
RefCOCO+ and RefCOCOg) with click annotations.Our method is simple but
surprisingly effective, outperforming all previous state-of-the-art RES methods
on fully- and weakly-supervised settings by a large margin. The benchmark code
and datasets will be released.
- Abstract(参考訳): 対象を所定の言語表現に従ってローカライズし、セグメンテーションすることを目的とした参照表現セグメンテーション(res)が注目されている。
既存の手法では、両方のステップで融合した視覚的特徴と言語的特徴に依存する局所化とセグメンテーションのステップを共同で検討している。
オブジェクトを識別する目的とマスクを生成する目的との衝突は、RES性能を制限すると論じる。
この問題を解決するために, 位置ケネル・セグメンテーションの並列パイプラインを提案し, ローカライゼーションとセグメンテーションのステップを分離し, 相互作用させる。
我々のパイプラインでは、言語情報はセグメント化の視覚的特徴を直接汚染しない。
具体的には、ローカライズステップが参照表現に基づいて画像内の対象オブジェクトをローカライズし、ローカライズステップから得られた視覚カーネルがセグメンテーションステップを誘導する。
このパイプラインでは、ピクセルレベルのセグメンテーションラベルを中央およびコーナーポイントのクリックアノテーションに置き換える、弱い教師付き方法でresをトレーニングすることも可能です。
位置ヘッドは全監督され、クリックアノテーションを監督として訓練され、セグメンテーションヘッドは弱監督されたセグメンテーション損失で訓練される。
resベンチマークデータセット(refcoco、refcoco+、refcocog)をクリックアノテーションでアノテートした。この手法は単純だが驚くほど効果的で、完全かつ弱い教師付き設定で以前のresメソッドを上回っている。
ベンチマークコードとデータセットがリリースされる。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - SegGroup: Seg-Level Supervision for 3D Instance and Semantic
Segmentation [88.22349093672975]
アノテーションの場所を示すためにインスタンス毎に1つのポイントをクリックするだけでよい、弱い教師付きポイントクラウドセグメンテーションアルゴリズムを設計します。
事前処理のオーバーセグメンテーションにより、これらの位置アノテーションをセグレベルのラベルとしてセグメントに拡張する。
seg-level supervised method (SegGroup) は、完全注釈付きポイントレベルのsupervised method で比較結果が得られることを示した。
論文 参考訳(メタデータ) (2020-12-18T13:23:34Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。