論文の概要: CaFT: Clustering and Filter on Tokens of Transformer for Weakly
Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2201.00475v1
- Date: Mon, 3 Jan 2022 05:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:24:05.503184
- Title: CaFT: Clustering and Filter on Tokens of Transformer for Weakly
Supervised Object Localization
- Title(参考訳): CaFT: 弱監視対象位置決めのためのトランスフォーマーのトークンのクラスタリングとフィルタ
- Authors: Ming Li
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSOL)は、カテゴリラベルのみによってオブジェクトをローカライズする難しいタスクである。
本稿では,視覚変換器 (ViT) のバックボーンを用いたTokensのクラスタリングとフィルタを提案する。
CaFT は 97.55% と 69.86% のローカライズ精度を CUB-200 と ImageNet-1K でそれぞれ達成している。
- 参考スコア(独自算出の注目度): 8.362607080273248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) is a challenging task to
localize the object by only category labels. However, there is contradiction
between classification and localization because accurate classification network
tends to pay attention to discriminative region of objects rather than the
entirety. We propose this discrimination is caused by handcraft threshold
choosing in CAM-based methods. Therefore, we propose Clustering and Filter of
Tokens (CaFT) with Vision Transformer (ViT) backbone to solve this problem in
another way. CaFT first sends the patch tokens of the image split to ViT and
cluster the output tokens to generate initial mask of the object. Secondly,
CaFT considers the initial mask as pseudo labels to train a shallow convolution
head (Attention Filter, AtF) following backbone to directly extract the mask
from tokens. Then, CaFT splits the image into parts, outputs masks respectively
and merges them into one refined mask. Finally, a new AtF is trained on the
refined masks and used to predict the box of object. Experiments verify that
CaFT outperforms previous work and achieves 97.55\% and 69.86\% localization
accuracy with ground-truth class on CUB-200 and ImageNet-1K respectively. CaFT
provides a fresh way to think about the WSOL task.
- Abstract(参考訳): 弱教師付きオブジェクトローカライゼーション(WSOL)は、カテゴリラベルのみによってオブジェクトをローカライズする難しいタスクである。
しかし、正確な分類ネットワークは全体よりも物体の識別領域に注意を払う傾向があるため、分類と局所化には矛盾がある。
この判別は,cam方式における手工芸しきい値選択に起因している。
そこで我々は,視覚変換器 (ViT) のバックボーンを付加したTokensのクラスタリングとフィルタを提案し,この問題を別の方法で解決する。
CaFTはまず画像のパッチトークンをViTに送信し、出力トークンをクラスタ化してオブジェクトの初期マスクを生成する。
第二に、CaFTは初期マスクを擬似ラベルとして、バックボーンに従って浅い畳み込みヘッド(Attention Filter, AtF)をトレーニングし、トークンから直接マスクを抽出する。
その後、caftは画像を部品に分割し、それぞれマスクを出力し、1つの洗練されたマスクにマージする。
最後に、改良されたマスクで新しいatfを訓練し、オブジェクトのボックスを予測するために使用する。
実験では、CUB-200とImageNet-1Kでは、CaFTがそれぞれ97.55\%と69.86\%のローカライゼーション精度を達成した。
CaFTはWSOLタスクについて考えるための新しい方法を提供する。
関連論文リスト
- MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation [109.19165503929992]
オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Masked Discrimination for Self-Supervised Learning on Point Clouds [27.652157544218234]
マスク付きオートエンコーディングは、画像と言語領域における自己教師型学習において大きな成功を収めた。
PointNetのような標準的なバックボーンは、トレーニング中にマスクによって導入された分散ミスマッチのトレーニングとテストのミスマッチを適切に処理できない。
我々はこのギャップを、ポイントクラウドのための差別マスク事前学習フレームワークMaskPointを提案し、橋渡しする。
論文 参考訳(メタデータ) (2022-03-21T17:57:34Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - Background-aware Classification Activation Map for Weakly Supervised
Object Localization [14.646874544729426]
対象と背景の両方のローカライズスコアを同時に学習するための背景認識型分類活性化マップ(B-CAM)を提案する。
我々のB-CAMは、提案したスタガー分類損失に基づいてエンドツーエンドで訓練することができる。
実験の結果,我々のB-CAMはCUB-200,OpenImages,VOC2012データセット上で一段階WSOL法より優れていた。
論文 参考訳(メタデータ) (2021-12-29T03:12:09Z) - Box-Adapt: Domain-Adaptive Medical Image Segmentation using Bounding
BoxSupervision [52.45336255472669]
深層学習のための弱教師付きドメイン適応設定を提案する。
Box-Adaptは、ソースドメインのきめ細かいセグナオンマスクとターゲットドメインの弱いバウンディングボックスを完全に探索する。
肝セグメンテーションにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-08-19T01:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。