論文の概要: Segment, Select, Correct: A Framework for Weakly-Supervised Referring
Segmentation
- arxiv url: http://arxiv.org/abs/2310.13479v2
- Date: Mon, 23 Oct 2023 09:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:11:29.355736
- Title: Segment, Select, Correct: A Framework for Weakly-Supervised Referring
Segmentation
- Title(参考訳): segment, select, correct:弱教師付き参照セグメンテーションのためのフレームワーク
- Authors: Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H.S. Torr, Puneet K.
Dokania
- Abstract要約: 参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)だけを使用することで、他のゼロショットベースラインを最大19%上回る。
- 参考スコア(独自算出の注目度): 67.73558686629998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) - the problem of identifying objects in
images through natural language sentences - is a challenging task currently
mostly solved through supervised learning. However, while collecting referred
annotation masks is a time-consuming process, the few existing
weakly-supervised and zero-shot approaches fall significantly short in
performance compared to fully-supervised learning ones. To bridge the
performance gap without mask annotations, we propose a novel weakly-supervised
framework that tackles RIS by decomposing it into three steps: obtaining
instance masks for the object mentioned in the referencing instruction
(segment), using zero-shot learning to select a potentially correct mask for
the given instruction (select), and bootstrapping a model which allows for
fixing the mistakes of zero-shot selection (correct). In our experiments, using
only the first two steps (zero-shot segment and select) outperforms other
zero-shot baselines by as much as 19%, while our full method improves upon this
much stronger baseline and sets the new state-of-the-art for weakly-supervised
RIS, reducing the gap between the weakly-supervised and fully-supervised
methods in some cases from around 33% to as little as 14%. Code is available at
https://github.com/fgirbal/segment-select-correct.
- Abstract(参考訳): Referring Image Segmentation (RIS) - 自然言語文を通して画像中のオブジェクトを識別する問題は、現在主に教師付き学習によって解決されている課題である。
しかし、参照するアノテーションマスクの収集には時間を要するが、既存の弱い教師付きアプローチやゼロショットアプローチは、完全に教師付き学習方法に比べて、パフォーマンスが著しく低い。
マスクアノテーションを使わずにパフォーマンスギャップを埋めるために,参照命令(segment)で言及されたオブジェクトのインスタンスマスクを取得し,ゼロショット学習を用いて与えられた命令(select)に対して潜在的に正しいマスクを選択する,ゼロショット選択(correct)のミスを修正可能なモデルをブートストラップする,という3つのステップに分解してRISに対処する,新しい弱い教師付きフレームワークを提案する。
実験では,最初の2段階(ゼロショットセグメントとセレクト)のみを用いて,他のゼロショットベースラインを最大19%向上させる一方,本手法はより強力なベースラインを改良し,弱教師付きRISのための新しい最先端技術を設定し,弱教師付き手法と完全教師付き手法のギャップを約33%から14%に短縮する。
コードはhttps://github.com/fgirbal/segment-select-correctで入手できる。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion [24.02235805999193]
アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
論文 参考訳(メタデータ) (2023-08-23T23:44:44Z) - Cut and Learn for Unsupervised Object Detection and Instance
Segmentation [65.43627672225624]
Cut-and-LeaRn(CutLER)は、教師なしオブジェクトの検出とセグメンテーションモデルをトレーニングするためのシンプルなアプローチである。
CutLERはゼロショット非監視検出器であり、11のベンチマークでAP50を2.7倍以上改善している。
論文 参考訳(メタデータ) (2023-01-26T18:57:13Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - MaskSplit: Self-supervised Meta-learning for Few-shot Semantic
Segmentation [10.809349710149533]
本稿では,少数ショットセグメンテーションモデル学習のための自己教師付きトレーニング手法を提案する。
まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。
次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-10-23T12:30:05Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。