論文の概要: Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2111.12698v1
- Date: Wed, 24 Nov 2021 18:50:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:26:02.847395
- Title: Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling
- Title(参考訳): ロバストなクロスモーダル擬似ラベルによる開語彙インスタンスセグメンテーション
- Authors: Dat Huynh, Jason Kuen, Zhe Lin, Jiuxiang Gu, Ehsan Elhamifar
- Abstract要約: Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
- 参考スコア(独自算出の注目度): 61.03262873980619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary instance segmentation aims at segmenting novel classes
without mask annotations. It is an important step toward reducing laborious
human supervision. Most existing works first pretrain a model on captioned
images covering many novel classes and then finetune it on limited base classes
with mask annotations. However, the high-level textual information learned from
caption pretraining alone cannot effectively encode the details required for
pixel-wise segmentation. To address this, we propose a cross-modal
pseudo-labeling framework, which generates training pseudo masks by aligning
word semantics in captions with visual features of object masks in images.
Thus, our framework is capable of labeling novel classes in captions via their
word semantics to self-train a student model. To account for noises in pseudo
masks, we design a robust student model that selectively distills mask
knowledge by estimating the mask noise levels, hence mitigating the adverse
impact of noisy pseudo masks. By extensive experiments, we show the
effectiveness of our framework, where we significantly improve mAP score by
4.5% on MS-COCO and 5.1% on the large-scale Open Images & Conceptual Captions
datasets compared to the state-of-the-art.
- Abstract(参考訳): open-vocabularyインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
これは、人的監督を減らすための重要なステップである。
既存のほとんどの作品は、最初に、多くの新しいクラスをカバーするキャプション付き画像のモデルを事前訓練し、その後、マスクアノテーションで限定されたベースクラスに微調整する。
しかし,字幕事前学習だけで学習した高レベルテキスト情報は,画素分割に必要な詳細を効果的にエンコードすることはできない。
そこで本研究では,字幕中の単語意味を画像中のオブジェクトマスクの視覚的特徴と整合させることにより,擬似マスクを訓練するクロスモーダル擬似ラベルフレームワークを提案する。
したがって,新しいクラスを単語意味論を通じてキャプションにラベル付けし,学習モデルの自己学習を可能にする。
疑似マスクのノイズを考慮し,マスクノイズレベルを推定してマスク知識を選択的に蒸留する頑健な学生モデルを設計し,ノイズのある疑似マスクの悪影響を軽減する。
広範な実験により,ms-cocoでは4.5%,大規模オープンイメージと概念キャプションデータセットでは5.1%と,最先端と比較してマップスコアを有意に改善した。
関連論文リスト
- CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [19.620999589227996]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験結果から,本手法はトレーニング不要データだけでなく,何百万ものデータサンプルを微調整したデータよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - Attention as Annotation: Generating Images and Pseudo-masks for Weakly
Supervised Semantic Segmentation with Diffusion [10.873354142424697]
本稿では,実際の画像や手動のアノテーションに依存しない意味的セグメンテーションのトレーニング手法を提案する。
提案手法は,テキスト・ツー・イメージ拡散モデルにより生成された画像と内部のテキスト・ツー・イメージ・クロスアテンションを併用して,疑似マスクの監督を行う。
実験により、attn2maskは、セグメント化に実際のトレーニングデータを使用しないPASCAL VOCで有望な結果を達成することを示し、また、よりクラスのシナリオであるImageNetセグメンテーションにセグメンテーションをスケールアップすることも有用である。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。
私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。
擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文 参考訳(メタデータ) (2021-03-27T11:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。