論文の概要: Weakly Supervised Few-shot Object Segmentation using Co-Attention with
Visual and Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2001.09540v3
- Date: Sun, 17 May 2020 17:08:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:34:42.706765
- Title: Weakly Supervised Few-shot Object Segmentation using Co-Attention with
Visual and Semantic Embeddings
- Title(参考訳): ビジュアル・セマンティック・エンベディングを用いた重み付き物体分割法
- Authors: Mennatullah Siam, Naren Doraiswamy, Boris N. Oreshkin, Hengshuai Yao
and Martin Jagersand
- Abstract要約: 少数ショットオブジェクトセグメンテーションのための新しいマルチモーダル相互作用モジュールを提案する。
画像レベルラベルを用いたモデルでは,従来提案されていた画像レベルの少数ショットオブジェクトセグメンテーションよりも4.8%向上した。
- 参考スコア(独自算出の注目度): 19.347082966656895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Significant progress has been made recently in developing few-shot object
segmentation methods. Learning is shown to be successful in few-shot
segmentation settings, using pixel-level, scribbles and bounding box
supervision. This paper takes another approach, i.e., only requiring
image-level label for few-shot object segmentation. We propose a novel
multi-modal interaction module for few-shot object segmentation that utilizes a
co-attention mechanism using both visual and word embedding. Our model using
image-level labels achieves 4.8% improvement over previously proposed
image-level few-shot object segmentation. It also outperforms state-of-the-art
methods that use weak bounding box supervision on PASCAL-5i. Our results show
that few-shot segmentation benefits from utilizing word embeddings, and that we
are able to perform few-shot segmentation using stacked joint visual semantic
processing with weak image-level labels. We further propose a novel setup,
Temporal Object Segmentation for Few-shot Learning (TOSFL) for videos. TOSFL
can be used on a variety of public video data such as Youtube-VOS, as
demonstrated in both instance-level and category-level TOSFL experiments.
- Abstract(参考訳): 最近、数発のオブジェクトセグメンテーション法の開発で重要な進歩を遂げている。
学習は、ピクセルレベル、スクリブル、バウンディングボックス管理を使用して、数ショットのセグメンテーション設定で成功している。
本論文では, 画像レベルのラベルを必要とせず, 少数のオブジェクトセグメンテーションを行う。
視覚と単語の埋め込みを併用したコアテンション機構を利用した,少数ショットオブジェクトセグメンテーションのための新しいマルチモーダルインタラクションモジュールを提案する。
画像レベルラベルを用いたモデルでは,従来提案していた画像レベル少数ショットオブジェクトのセグメンテーションよりも4.8%向上した。
またPASCAL-5iの弱いバウンディングボックス管理を使用する最先端の手法よりも優れている。
この結果から, 単語埋め込みの利点を生かし, 画像レベルラベルの弱い結合視覚的セグメンテーションを用いて, 少数のセグメンテーションを行うことができることがわかった。
さらに,ビデオのためのマイナショット学習(tosfl)のための新しい設定,時間オブジェクトセグメンテーションを提案する。
TOSFLは、インスタンスレベルとカテゴリレベルのTOSFL実験の両方で示されているように、Youtube-VOSのような様々な公開ビデオデータで使用することができる。
関連論文リスト
- IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence [2.822194296769473]
新しいクラスのセグメンテーションを学ぶために必要な画像の数を減らします。
インタラクティブなセグメンテーション技術は、一度に1つのオブジェクトのセグメンテーションを漸進的に改善することのみに焦点を当てます。
2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。
論文 参考訳(メタデータ) (2024-03-22T10:15:53Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Iterative Few-shot Semantic Segmentation from Image Label Text [36.53926941601841]
ほとんどショットのセマンティックセマンティックセマンティクスは、いくつかのサポートイメージのガイダンスで、目に見えないクラスオブジェクトのセマンティクスを学ぶことを目的としている。
本稿では、強力な視覚言語モデルCLIPの助けを借りて、粗いマスクを生成するための一般的なフレームワークを提案する。
本手法は,野生および珍しいクラスの画像に対して,優れた一般化能力を有する。
論文 参考訳(メタデータ) (2023-03-10T01:48:14Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。