Fugu-MT 論文翻訳(概要): MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

論文の概要: MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation

arxiv url: http://arxiv.org/abs/2308.04829v2
Date: Wed, 13 Mar 2024 03:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 18:57:21.326778
Title: MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner for Open-World Semantic Segmentation
Title（参考訳）: MixReorg: クロスモーダルな混合パッチ再編成は良いマスク学習者オープンワールドセマンティックセマンティックセグメンテーション
Authors: Kaixin Cai, Pengzhen Ren, Yi Zhu, Hang Xu, Jianzhuang Liu, Changlin Li, Guangrun Wang, Xiaodan Liang
Abstract要約: セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
参考スコア（独自算出の注目度）: 110.09800389100599
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, semantic segmentation models trained with image-level text supervision have shown promising results in challenging open-world scenarios. However, these models still face difficulties in learning fine-grained semantic alignment at the pixel level and predicting accurate object masks. To address this issue, we propose MixReorg, a novel and straightforward pre-training paradigm for semantic segmentation that enhances a model's ability to reorganize patches mixed across images, exploring both local visual relevance and global semantic coherence. Our approach involves generating fine-grained patch-text pairs data by mixing image patches while preserving the correspondence between patches and text. The model is then trained to minimize the segmentation loss of the mixed images and the two contrastive losses of the original and restored features. With MixReorg as a mask learner, conventional text-supervised semantic segmentation models can achieve highly generalizable pixel-semantic alignment ability, which is crucial for open-world segmentation. After training with large-scale image-text data, MixReorg models can be applied directly to segment visual objects of arbitrary categories, without the need for further fine-tuning. Our proposed framework demonstrates strong performance on popular zero-shot semantic segmentation benchmarks, outperforming GroupViT by significant margins of 5.0%, 6.2%, 2.5%, and 3.4% mIoU on PASCAL VOC2012, PASCAL Context, MS COCO, and ADE20K, respectively.
Abstract（参考訳）: 近年、画像レベルのテキスト管理で訓練されたセマンティックセグメンテーションモデルは、オープンワールドのシナリオに挑戦する有望な結果を示している。しかし、これらのモデルは、ピクセルレベルで細粒度のセマンティックアライメントを学習し、正確なオブジェクトマスクを予測するのに依然として困難に直面している。この問題に対処するために、MixReorgを提案する。これはセマンティックセグメンテーションのための新しくて簡単な事前学習パラダイムで、画像間で混在するパッチを再編成するモデルの能力を向上し、局所的な視覚的関連性とグローバルなセマンティックコヒーレンスの両方を探索する。我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。次に、混合画像のセグメンテーション損失と、元の特徴と復元された特徴の2つの対照的な損失を最小限に抑えるよう訓練する。マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティクスモデルは、オープンワールドセマンティクスにとって重要な、非常に一般化可能なピクセル・セマンティクスアライメント能力を実現することができる。大規模な画像テキストデータでトレーニングした後、MixReorgモデルは任意のカテゴリの視覚オブジェクトに直接適用することができる。提案フレームワークは, PASCAL VOC2012, PASCAL Context, MS COCO, ADE20Kにおいて, GroupViTを5.0%, 6.2%, 2.5%, 3.4% mIoUで上回り, 高い性能を示す。

関連論文リスト

Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文参考訳（メタデータ） (2025-03-21T12:10:38Z)
Adaptive Noise-Tolerant Network for Image Segmentation [1.57731592348751]
そこで本研究では,非完全・ノイズセグメンテーションとオフザシェルフセグメンテーションアルゴリズムを組み合わせることで,適応型ノイズ耐性ネットワーク(ANTN)モデルにより,より優れたセグメンテーション結果が得られるかどうかを考察する。 1)複数のノイズラベルを1つのディープラーニングモデルに統合できる,(2)確率的パラメータを含む雑音分割モデリングは、与えられたテスト画像の外観に応じて適応する,という2つの新しい側面で、ノイズラベルのディープラーニングを画像セグメンテーションに拡張する。
論文参考訳（メタデータ） (2025-01-13T09:49:34Z)
HisynSeg: Weakly-Supervised Histopathological Image Segmentation via Image-Mixing Synthesis and Consistency Regularization [15.13875300007579]
HisynSegは画像混合合成と一貫性正規化に基づく弱教師付きセマンティックセマンティックセマンティクスフレームワークである。 HisynSegは3つのデータセット上で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-12-30T13:10:48Z)
Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文参考訳（メタデータ） (2024-04-25T17:58:09Z)
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。 ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文参考訳（メタデータ） (2024-02-14T06:01:44Z)
FuseNet: Self-Supervised Dual-Path Network for Medical Image Segmentation [3.485615723221064]
FuseNetは、自己教師型セマンティックセグメンテーションのためのデュアルストリームフレームワークである。クロスモーダル融合技術は、テキストデータを拡張画像に置き換えることで、CLIPの原理を拡張している。皮膚病変と肺分画データセットの実験により, 本手法の有効性が示された。
論文参考訳（メタデータ） (2023-11-22T00:03:16Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。 OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文参考訳（メタデータ） (2023-01-22T13:10:05Z)
A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文参考訳（メタデータ） (2021-12-29T18:56:18Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。