論文の概要: AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2404.05667v1
- Date: Mon, 8 Apr 2024 16:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 13:36:07.644390
- Title: AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation
- Title(参考訳): AlignZeg: ゼロショットセマンティックセマンティックセマンティックセグメンテーションにおける客観的ミス修正
- Authors: Jiannan Ge, Lingxi Xie, Hongtao Xie, Pandeng Li, Xiaopeng Zhang, Yongdong Zhang, Qi Tian,
- Abstract要約: ゼロショット視覚認識の性能を損なう深刻な問題は、客観的なミスアライメントと呼ばれる。
セグメンテーションパイプラインを包括的に改善したAlignZegという新しいアーキテクチャを提案する。
実験によると、AlignZegはゼロショットセマンティックセマンティックセグメンテーションを著しく強化している。
- 参考スコア(独自算出の注目度): 123.88875931128342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A serious issue that harms the performance of zero-shot visual recognition is named objective misalignment, i.e., the learning objective prioritizes improving the recognition accuracy of seen classes rather than unseen classes, while the latter is the true target to pursue. This issue becomes more significant in zero-shot image segmentation because the stronger (i.e., pixel-level) supervision brings a larger gap between seen and unseen classes. To mitigate it, we propose a novel architecture named AlignZeg, which embodies a comprehensive improvement of the segmentation pipeline, including proposal extraction, classification, and correction, to better fit the goal of zero-shot segmentation. (1) Mutually-Refined Proposal Extraction. AlignZeg harnesses a mutual interaction between mask queries and visual features, facilitating detailed class-agnostic mask proposal extraction. (2) Generalization-Enhanced Proposal Classification. AlignZeg introduces synthetic data and incorporates multiple background prototypes to allocate a more generalizable feature space. (3) Predictive Bias Correction. During the inference stage, AlignZeg uses a class indicator to find potential unseen class proposals followed by a prediction postprocess to correct the prediction bias. Experiments demonstrate that AlignZeg markedly enhances zero-shot semantic segmentation, as shown by an average 3.8% increase in hIoU, primarily attributed to a 7.1% improvement in identifying unseen classes, and we further validate that the improvement comes from alleviating the objective misalignment issue.
- Abstract(参考訳): ゼロショット視覚認識の性能を損なう深刻な問題として、学習目的が未確認のクラスではなく、目に見えるクラスの認識精度の向上を優先し、後者が追求する真の目標である、客観的な誤認識がある。
この問題はゼロショット画像のセグメンテーションにおいて、より強力な(ピクセルレベルの)監督によって、見えないクラスと見えないクラスの間に大きなギャップが生じるため、より重要になる。
そこで本研究では,ゼロショットセグメンテーションの目標に合うように,提案手法の抽出,分類,修正を含むセグメンテーションパイプラインを包括的に改良したAlignZegというアーキテクチャを提案する。
1) 相互に解決された提案抽出
AlignZegは、マスククエリと視覚的特徴の相互相互作用を利用して、詳細なクラスに依存しないマスク提案抽出を容易にする。
(2)一般化による提案分類
AlignZegは合成データを導入し、より一般化可能な機能空間を割り当てるために複数の背景プロトタイプを組み込んでいる。
(3)予測バイアス補正
推論の段階では、AlignZegはクラスインジケータを使用して、潜在的に目に見えないクラスの提案を見つけ、続いて予測後処理を使用して予測バイアスを補正する。
実験により、AlignZegは、平均3.8%のhIoUの増加によるゼロショットセマンティックセグメンテーションを著しく向上させることが示された。
関連論文リスト
- Learning Common Rationale to Improve Self-Supervised Representation for
Fine-Grained Visual Recognition Problems [61.11799513362704]
我々は、インスタンスやクラスでよく見られる差別的手がかりを識別するための、追加のスクリーニングメカニズムの学習を提案する。
SSL目標から誘導されるGradCAMを単純に利用することで、共通な有理性検出器が学習可能であることを示す。
論文 参考訳(メタデータ) (2023-03-03T02:07:40Z) - A Knowledge-based Learning Framework for Self-supervised Pre-training
Towards Enhanced Recognition of Medical Images [14.304996977665212]
本研究では,医用画像の認識向上に向けた知識ベース学習フレームワークを提案する。
コントラスト学習と生成学習モデルを相乗化することで、3つのフェーズで機能する。
提案したフレームワークは、AUC/DiceのSimCLRよりも2.08, 1.23, 1.12, 0.76, 1.38ポイント改善された自己教師型ベンチマークで統計的に優れている。
論文 参考訳(メタデータ) (2022-11-27T03:58:58Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Exploring Feature Representation Learning for Semi-supervised Medical
Image Segmentation [30.608293915653558]
半教師型医用画像分割のための2段階フレームワークを提案する。
重要な洞察は、ラベル付きおよびラベルなし(擬似ラベル付き)画像による特徴表現学習を探索することである。
段階適応型コントラスト学習法を提案し, 境界対応型コントラスト学習法を提案する。
本稿では,高品質な擬似ラベルを生成するためのアレータリック不確実性認識手法,すなわちAUAを提案する。
論文 参考訳(メタデータ) (2021-11-22T05:06:12Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z) - Flip Learning: Erase to Segment [65.84901344260277]
弱い教師付きセグメンテーション(WSS)は、時間と面倒な手作業のアノテーションを減らすのに役立ちます。
ボックスアノテーションのみを必要とするFlip Learningという,斬新で汎用的なWSSフレームワークを提案する。
提案手法は,完全教師付き学習と弱教師付き学習のギャップを狭める大きな可能性を示す。
論文 参考訳(メタデータ) (2021-08-02T09:56:10Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。