論文の概要: Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation
- arxiv url: http://arxiv.org/abs/2310.13479v3
- Date: Tue, 20 Aug 2024 10:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 20:51:22.404966
- Title: Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation
- Title(参考訳): Segment, Select, correct: 弱い修正された参照セグメンテーションのためのフレームワーク
- Authors: Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H. S. Torr, Puneet K. Dokania,
- Abstract要約: 参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)のみを使用して、他のゼロショットベースラインを最大16.5%上回る。
- 参考スコア(独自算出の注目度): 63.13635858586001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) - the problem of identifying objects in images through natural language sentences - is a challenging task currently mostly solved through supervised learning. However, while collecting referred annotation masks is a time-consuming process, the few existing weakly-supervised and zero-shot approaches fall significantly short in performance compared to fully-supervised learning ones. To bridge the performance gap without mask annotations, we propose a novel weakly-supervised framework that tackles RIS by decomposing it into three steps: obtaining instance masks for the object mentioned in the referencing instruction (segment), using zero-shot learning to select a potentially correct mask for the given instruction (select), and bootstrapping a model which allows for fixing the mistakes of zero-shot selection (correct). In our experiments, using only the first two steps (zero-shot segment and select) outperforms other zero-shot baselines by as much as 16.5%, while our full method improves upon this much stronger baseline and sets the new state-of-the-art for weakly-supervised RIS, reducing the gap between the weakly-supervised and fully-supervised methods in some cases from around 33% to as little as 7%. Code is available at https://github.com/fgirbal/segment-select-correct.
- Abstract(参考訳): Referring Image Segmentation (RIS) - 自然言語文を通して画像中のオブジェクトを識別する問題は、現在主に教師付き学習によって解決されている課題である。
しかし、参照するアノテーションマスクの収集には時間を要するが、既存の弱い教師付きアプローチやゼロショットアプローチは、完全に教師付き学習方法に比べて、パフォーマンスが著しく低い。
マスクアノテーションを使わずにパフォーマンスギャップを埋めるために,参照命令(segment)で言及されたオブジェクトのインスタンスマスクを取得し,ゼロショット学習を用いて与えられた命令(select)に対して潜在的に正しいマスクを選択する,ゼロショット選択(correct)のミスを修正可能なモデルをブートストラップする,という3つのステップに分解してRISに対処する,新しい弱い教師付きフレームワークを提案する。
実験では,最初の2段階(ゼロショットセグメントとセレクト)で,他のゼロショットベースラインを最大16.5%向上させる一方,本手法はより強力なベースラインを改良し,弱教師付きRISのための新しい最先端技術を設定し,弱教師付き手法と完全教師付き手法のギャップを約33%から7%に短縮する。
コードはhttps://github.com/fgirbal/segment-select-correct.comで公開されている。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation [11.243400478302771]
Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:02:25Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion [24.02235805999193]
アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
論文 参考訳(メタデータ) (2023-08-23T23:44:44Z) - Cut and Learn for Unsupervised Object Detection and Instance
Segmentation [65.43627672225624]
Cut-and-LeaRn(CutLER)は、教師なしオブジェクトの検出とセグメンテーションモデルをトレーニングするためのシンプルなアプローチである。
CutLERはゼロショット非監視検出器であり、11のベンチマークでAP50を2.7倍以上改善している。
論文 参考訳(メタデータ) (2023-01-26T18:57:13Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - MaskSplit: Self-supervised Meta-learning for Few-shot Semantic
Segmentation [10.809349710149533]
本稿では,少数ショットセグメンテーションモデル学習のための自己教師付きトレーニング手法を提案する。
まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。
次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-10-23T12:30:05Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。