論文の概要: MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.04829v2
- Date: Wed, 13 Mar 2024 03:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:21.326778
- Title: MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation
- Title(参考訳): MixReorg: クロスモーダルな混合パッチ再編成は良いマスク学習者
オープンワールドセマンティックセマンティックセグメンテーション
- Authors: Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin
Li, Guangrun Wang, Xiaodan Liang
- Abstract要約: セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
- 参考スコア(独自算出の注目度): 110.09800389100599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, semantic segmentation models trained with image-level text
supervision have shown promising results in challenging open-world scenarios.
However, these models still face difficulties in learning fine-grained semantic
alignment at the pixel level and predicting accurate object masks. To address
this issue, we propose MixReorg, a novel and straightforward pre-training
paradigm for semantic segmentation that enhances a model's ability to
reorganize patches mixed across images, exploring both local visual relevance
and global semantic coherence. Our approach involves generating fine-grained
patch-text pairs data by mixing image patches while preserving the
correspondence between patches and text. The model is then trained to minimize
the segmentation loss of the mixed images and the two contrastive losses of the
original and restored features. With MixReorg as a mask learner, conventional
text-supervised semantic segmentation models can achieve highly generalizable
pixel-semantic alignment ability, which is crucial for open-world segmentation.
After training with large-scale image-text data, MixReorg models can be applied
directly to segment visual objects of arbitrary categories, without the need
for further fine-tuning. Our proposed framework demonstrates strong performance
on popular zero-shot semantic segmentation benchmarks, outperforming GroupViT
by significant margins of 5.0%, 6.2%, 2.5%, and 3.4% mIoU on PASCAL VOC2012,
PASCAL Context, MS COCO, and ADE20K, respectively.
- Abstract(参考訳): 近年、画像レベルのテキスト管理で訓練されたセマンティックセグメンテーションモデルは、オープンワールドのシナリオに挑戦する有望な結果を示している。
しかし、これらのモデルは、ピクセルレベルで細粒度のセマンティックアライメントを学習し、正確なオブジェクトマスクを予測するのに依然として困難に直面している。
この問題に対処するために、MixReorgを提案する。これはセマンティックセグメンテーションのための新しくて簡単な事前学習パラダイムで、画像間で混在するパッチを再編成するモデルの能力を向上し、局所的な視覚的関連性とグローバルなセマンティックコヒーレンスの両方を探索する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
次に、混合画像のセグメンテーション損失と、元の特徴と復元された特徴の2つの対照的な損失を最小限に抑えるよう訓練する。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティクスモデルは、オープンワールドセマンティクスにとって重要な、非常に一般化可能なピクセル・セマンティクスアライメント能力を実現することができる。
大規模な画像テキストデータでトレーニングした後、MixReorgモデルは任意のカテゴリの視覚オブジェクトに直接適用することができる。
提案フレームワークは, PASCAL VOC2012, PASCAL Context, MS COCO, ADE20Kにおいて, GroupViTを5.0%, 6.2%, 2.5%, 3.4% mIoUで上回り, 高い性能を示す。
関連論文リスト
- FuseNet: Self-Supervised Dual-Path Network for Medical Image
Segmentation [3.485615723221064]
FuseNetは、自己教師型セマンティックセグメンテーションのためのデュアルストリームフレームワークである。
クロスモーダル融合技術は、テキストデータを拡張画像に置き換えることで、CLIPの原理を拡張している。
皮膚病変と肺分画データセットの実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-22T00:03:16Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。