論文の概要: Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer
- arxiv url: http://arxiv.org/abs/2108.03032v2
- Date: Mon, 9 Aug 2021 14:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:34:26.303212
- Title: Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight
Transformer
- Title(参考訳): よりシンプルに:分類器重み変換による数ショットセマンティクスセグメンテーション
- Authors: Zhihe lu, Sen He, Xiatian Zhu, Li Zhang, Yi-Zhe Song, Tao Xiang
- Abstract要約: 数ショットのセマンティックセグメンテーションモデルは典型的にはCNNエンコーダ、CNNデコーダ、単純な分類器から構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
本稿では,最も単純なコンポーネントである分類器にのみ焦点をあてて,メタ学習タスクの簡略化を提案する。
- 参考スコア(独自算出の注目度): 112.95747173442754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A few-shot semantic segmentation model is typically composed of a CNN
encoder, a CNN decoder and a simple classifier (separating foreground and
background pixels). Most existing methods meta-learn all three model components
for fast adaptation to a new class. However, given that as few as a single
support set image is available, effective model adaption of all three
components to the new class is extremely challenging. In this work we propose
to simplify the meta-learning task by focusing solely on the simplest
component, the classifier, whilst leaving the encoder and decoder to
pre-training. We hypothesize that if we pre-train an off-the-shelf segmentation
model over a set of diverse training classes with sufficient annotations, the
encoder and decoder can capture rich discriminative features applicable for any
unseen classes, rendering the subsequent meta-learning stage unnecessary. For
the classifier meta-learning, we introduce a Classifier Weight Transformer
(CWT) designed to dynamically adapt the supportset trained classifier's weights
to each query image in an inductive way. Extensive experiments on two standard
benchmarks show that despite its simplicity, our method outperforms the
state-of-the-art alternatives, often by a large margin.Code is available on
https://github.com/zhiheLu/CWT-for-FSS.
- Abstract(参考訳): 数ショットのセマンティックセグメンテーションモデルは通常、CNNエンコーダ、CNNデコーダ、および単純な分類器(前景と背景画素を分離する)で構成される。
既存のほとんどのメソッドは、新しいクラスに迅速に適応するために、3つのモデルコンポーネント全てをメタ学習する。
しかし、単一のサポートセットイメージが利用可能であることを考えれば、新しいクラスへの3つのコンポーネントの効果的なモデル適応は極めて困難である。
本稿では,最も単純なコンポーネントである分類器にのみ焦点を合わせながら,エンコーダとデコーダを事前学習に残しながら,メタラーニングタスクの簡略化を提案する。
十分なアノテーションを持つ多様なトレーニングクラスに対して、オフザシェルフセグメンテーションモデルを事前訓練した場合、エンコーダとデコーダは、任意の未確認クラスに適用可能なリッチな識別的特徴をキャプチャし、その後のメタ学習段階を不要にする、という仮説を立てる。
分類器メタラーニングでは,各問合せ画像に対して,学習した分類器の重みを動的に適応するように設計された分類器重み変換器(CWT)を導入する。
2つの標準ベンチマークの大規模な実験は、その単純さにもかかわらず、我々のメソッドは最先端の代替手法よりも優れていることを示している。
関連論文リスト
- Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Multi-Class Unlearning for Image Classification via Weight Filtering [44.707144011189335]
Machine Unlearningは、ネットワークからトレーニングデータポイントの影響を選択的に除去するための新興パラダイムである。
メモリ行列を用いてネットワークのコンポーネントを調整し、トレーニング後の任意のクラスに対して選択的な未学習動作を示す。
コンボリューションとトランスフォーマーベースのバックボーンを用いた,小規模・中規模の画像分類データセット上で,提案手法を検証した。
論文 参考訳(メタデータ) (2023-04-04T18:01:59Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Prediction Calibration for Generalized Few-shot Semantic Segmentation [101.69940565204816]
汎用Few-shot Semantic (GFSS) は、各画像ピクセルを、豊富なトレーニング例を持つベースクラスか、クラスごとにわずかに(例: 1-5)のトレーニングイメージを持つ新しいクラスのいずれかに分割することを目的としている。
我々は、融合したマルチレベル機能を用いて、分類器の最終予測をガイドするクロスアテンションモジュールを構築する。
私たちのPCNは、最先端の代替品よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2022-10-15T13:30:12Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - A Closer Look at Few-Shot Video Classification: A New Baseline and
Benchmark [33.86872697028233]
本研究は,3つのコントリビューションを生かした映像分類の詳細な研究である。
まず,既存のメートル法を一貫した比較研究を行い,表現学習の限界を明らかにする。
第2に,新しいアクションクラスとImageNetオブジェクトクラスとの間には高い相関関係があることが判明した。
第3に,事前学習をせずに将来的な数ショットビデオ分類を容易にするため,より多くのベースデータを持つ新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-10-24T06:01:46Z) - Few-Shot Temporal Action Localization with Query Adaptive Transformer [105.84328176530303]
TALの作品は、セグメントレベルのアノテーションを徹底した、多数のトレーニングビデオに依存している。
Few-shot TALは、モデルを1つのビデオで表される新しいクラスに適応させることを目的としている。
論文 参考訳(メタデータ) (2021-10-20T13:18:01Z) - Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。
これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。
数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-09-11T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。