論文の概要: Segment, Select, Correct: A Framework for Weakly-Supervised Referring
Segmentation
- arxiv url: http://arxiv.org/abs/2310.13479v2
- Date: Mon, 23 Oct 2023 09:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:11:29.355736
- Title: Segment, Select, Correct: A Framework for Weakly-Supervised Referring
Segmentation
- Title(参考訳): segment, select, correct:弱教師付き参照セグメンテーションのためのフレームワーク
- Authors: Francisco Eiras, Kemal Oksuz, Adel Bibi, Philip H.S. Torr, Puneet K.
Dokania
- Abstract要約: 参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)だけを使用することで、他のゼロショットベースラインを最大19%上回る。
- 参考スコア(独自算出の注目度): 67.73558686629998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) - the problem of identifying objects in
images through natural language sentences - is a challenging task currently
mostly solved through supervised learning. However, while collecting referred
annotation masks is a time-consuming process, the few existing
weakly-supervised and zero-shot approaches fall significantly short in
performance compared to fully-supervised learning ones. To bridge the
performance gap without mask annotations, we propose a novel weakly-supervised
framework that tackles RIS by decomposing it into three steps: obtaining
instance masks for the object mentioned in the referencing instruction
(segment), using zero-shot learning to select a potentially correct mask for
the given instruction (select), and bootstrapping a model which allows for
fixing the mistakes of zero-shot selection (correct). In our experiments, using
only the first two steps (zero-shot segment and select) outperforms other
zero-shot baselines by as much as 19%, while our full method improves upon this
much stronger baseline and sets the new state-of-the-art for weakly-supervised
RIS, reducing the gap between the weakly-supervised and fully-supervised
methods in some cases from around 33% to as little as 14%. Code is available at
https://github.com/fgirbal/segment-select-correct.
- Abstract(参考訳): Referring Image Segmentation (RIS) - 自然言語文を通して画像中のオブジェクトを識別する問題は、現在主に教師付き学習によって解決されている課題である。
しかし、参照するアノテーションマスクの収集には時間を要するが、既存の弱い教師付きアプローチやゼロショットアプローチは、完全に教師付き学習方法に比べて、パフォーマンスが著しく低い。
マスクアノテーションを使わずにパフォーマンスギャップを埋めるために,参照命令(segment)で言及されたオブジェクトのインスタンスマスクを取得し,ゼロショット学習を用いて与えられた命令(select)に対して潜在的に正しいマスクを選択する,ゼロショット選択(correct)のミスを修正可能なモデルをブートストラップする,という3つのステップに分解してRISに対処する,新しい弱い教師付きフレームワークを提案する。
実験では,最初の2段階(ゼロショットセグメントとセレクト)のみを用いて,他のゼロショットベースラインを最大19%向上させる一方,本手法はより強力なベースラインを改良し,弱教師付きRISのための新しい最先端技術を設定し,弱教師付き手法と完全教師付き手法のギャップを約33%から14%に短縮する。
コードはhttps://github.com/fgirbal/segment-select-correctで入手できる。
関連論文リスト
- Mask Grounding for Referring Image Segmentation [45.81023579820535]
Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
論文 参考訳(メタデータ) (2023-12-19T14:34:36Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using
Stable Diffusion [25.772289652928528]
アノテーションを使わずに任意のものをゼロショットでセグメント化できるモデルを提案する。
注意マップ間のKLのばらつきを計測し,それらを有効なセグメンテーションマスクにマージする,シンプルで効果的な反復的マージ手法を提案する。
COCO-Stuff-27では,従来の教師なしゼロショットSOTA法を26%,IoU平均17%で上回っている。
論文 参考訳(メタデータ) (2023-08-23T23:44:44Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - FreeSOLO: Learning to Segment Objects without Annotations [191.82134817449528]
我々は,単純なインスタンスセグメンテーションメソッドSOLO上に構築された自己教師型インスタンスセグメンテーションフレームワークであるFreeSOLOを紹介する。
また,本手法では,複雑なシーンからオブジェクトを教師なしで検出する,新たなローカライズ対応事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T16:31:44Z) - MaskSplit: Self-supervised Meta-learning for Few-shot Semantic
Segmentation [10.809349710149533]
本稿では,少数ショットセグメンテーションモデル学習のための自己教師付きトレーニング手法を提案する。
まず、教師なしサリエンシ推定を用いて画像上の擬似マスクを求める。
次に、擬似マスクの異なる分割と画像の拡張に対して、簡単なプロトタイプベースのモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-10-23T12:30:05Z) - Weakly Supervised Contrastive Learning [68.47096022526927]
この問題に対処するために,弱教師付きコントラスト学習フレームワーク(WCL)を導入する。
WCLはResNet50を使用して65%と72%のImageNet Top-1の精度を実現している。
論文 参考訳(メタデータ) (2021-10-10T12:03:52Z) - Weakly Supervised Multi-Object Tracking and Segmentation [21.7184457265122]
本稿では,マルチオブジェクト追跡と弱教師付きトラッキングの問題について紹介する。
ジョイントの弱い監督インスタンスセグメンテーションとマルチオブジェクトトラッキング。
そこで我々は,マルチタスク学習を活用した新たなシナジートレーニング戦略を考案する。
本研究では,本タスクの代表的なベンチマークであるKITTI MOTSの手法を評価し,車と歩行者の12%と12.7%に,完全監督と弱監督のアプローチによるMOTSPメトリックのパフォーマンスギャップを小さくした。
論文 参考訳(メタデータ) (2021-01-03T17:06:43Z) - BoxInst: High-Performance Instance Segmentation with Box Annotations [102.10713189544947]
本稿では,トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。
私たちの中核となる考え方は、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの喪失を活用することです。
論文 参考訳(メタデータ) (2020-12-03T22:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。