論文の概要: Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2404.11998v1
- Date: Thu, 18 Apr 2024 08:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.641156
- Title: Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation
- Title(参考訳): 重み付き参照画像セグメント化のためのカリキュラムポイントプロンプト
- Authors: Qiyuan Dai, Sibei Yang,
- Abstract要約: Point PrompTing (PPT)はCLIPのテキスト画像アライメント機能とSAMの強力なマスク生成機能を利用するポイントジェネレータである。
PPTは、mIoUの弱い監督技術よりも著しく、一貫して優れていた。
- 参考スコア(独自算出の注目度): 13.924553294859315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation (RIS) aims to precisely segment referents in images through corresponding natural language expressions, yet relying on cost-intensive mask annotations. Weakly supervised RIS thus learns from image-text pairs to pixel-level semantics, which is challenging for segmenting fine-grained masks. A natural approach to enhancing segmentation precision is to empower weakly supervised RIS with the image segmentation foundation model SAM. Nevertheless, we observe that simply integrating SAM yields limited benefits and can even lead to performance regression due to the inevitable noise issues and challenges in excessive focus on object parts. In this paper, we present an innovative framework, Point PrompTing (PPT), incorporated with the proposed multi-source curriculum learning strategy to address these challenges. Specifically, the core of PPT is a point generator that not only harnesses CLIP's text-image alignment capability and SAM's powerful mask generation ability but also generates negative point prompts to address the noisy and excessive focus issues inherently and effectively. In addition, we introduce a curriculum learning strategy with object-centric images to help PPT gradually learn from simpler yet precise semantic alignment to more complex RIS. Experiments demonstrate that our PPT significantly and consistently outperforms prior weakly supervised techniques on mIoU by 11.34%, 14.14%, and 6.97% across RefCOCO, RefCOCO+, and G-Ref, respectively.
- Abstract(参考訳): Referring Image segmentation (RIS)は、画像中の参照を対応する自然言語表現を通じて正確にセグメント化することを目的としており、コスト集中型のマスクアノテーションに依存している。
したがって、弱教師付きRISは、画像テキストペアからピクセルレベルのセマンティクスへと学習する。
セグメンテーション精度を高めるための自然なアプローチは、イメージセグメンテーション基礎モデルSAMで弱教師付きRISを強化することである。
それでも、SAMの統合は限られた利益をもたらし、必然的なノイズ問題やオブジェクト部品に過度にフォーカスする際の課題のためにパフォーマンスの低下につながる可能性があることを観察する。
本稿では,これらの課題に対処するための多元的カリキュラム学習戦略を取り入れた,革新的なフレームワークであるPoint PrompTing(PPT)を提案する。
具体的には、PPTのコアは、CLIPのテキストイメージアライメント能力とSAMの強力なマスク生成能力を利用するだけでなく、ノイズや過度のフォーカス問題に本質的に効果的に対処するための負のポイントプロンプトを生成するポイントジェネレータである。
さらに,PPTがより単純かつ高精度なセマンティックアライメントからより複雑なRISまで,徐々に学習できるように,オブジェクト中心の画像を用いたカリキュラム学習戦略を導入する。
実験により、我々のPTは、mIoUの弱い監督技術よりも11.34%、14.14%、および6.97%、それぞれRefCOCO+、RefCOCOCO+、G-Refで著しく優れていた。
関連論文リスト
- Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation [10.958014189747356]
画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成する新しいフレームワークを提案する。
本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。
また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。
論文 参考訳(メタデータ) (2024-07-10T07:14:48Z) - HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Extending CLIP's Image-Text Alignment to Referring Image Segmentation [48.26552693472177]
Referring Image(RIS)は、自然言語で記述されたインスタンスをセグメント化することを目的とした、クロスモーダルなタスクである。
RISCLIPは,RISのためのCLIPのクロスモーダルな性質を効果的に活用する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-06-14T13:27:28Z) - CM-MaskSD: Cross-Modality Masked Self-Distillation for Referring Image
Segmentation [29.885991324519463]
本稿では,CM-MaskSD という新しいクロスモーダルマスク型自己蒸留フレームワークを提案する。
提案手法は,CLIPモデルから画像テキストセマンティックアライメントの伝達知識を継承し,きめ細かいパッチワード特徴アライメントを実現する。
我々のフレームワークはパラメータフリーに近い方法でモデル性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-05-19T07:17:27Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。