論文の概要: Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation
- arxiv url: http://arxiv.org/abs/2307.03407v1
- Date: Fri, 7 Jul 2023 06:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:19:32.494522
- Title: Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation
- Title(参考訳): 弱スーパービジョンFew-Shot分類とセグメンテーションのための自己スーパービジョン変換器の蒸留
- Authors: Dahyun Kang, Piotr Koniusz, Minsu Cho, Naila Murray
- Abstract要約: 視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
- 参考スコア(独自算出の注目度): 58.03255076119459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of weakly-supervised few-shot image classification and
segmentation, by leveraging a Vision Transformer (ViT) pretrained with
self-supervision. Our proposed method takes token representations from the
self-supervised ViT and leverages their correlations, via self-attention, to
produce classification and segmentation predictions through separate task
heads. Our model is able to effectively learn to perform classification and
segmentation in the absence of pixel-level labels during training, using only
image-level labels. To do this it uses attention maps, created from tokens
generated by the self-supervised ViT backbone, as pixel-level pseudo-labels. We
also explore a practical setup with ``mixed" supervision, where a small number
of training images contains ground-truth pixel-level labels and the remaining
images have only image-level labels. For this mixed setup, we propose to
improve the pseudo-labels using a pseudo-label enhancer that was trained using
the available ground-truth pixel-level labels. Experiments on Pascal-5i and
COCO-20i demonstrate significant performance gains in a variety of supervision
settings, and in particular when little-to-no pixel-level labels are available.
- Abstract(参考訳): 自己スーパービジョンで事前学習した視覚トランスフォーマ(vit)を活用して,少数ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を自己注意により利用し,個別のタスクヘッドによる分類とセグメンテーション予測を生成する。
本モデルでは,画像レベルラベルのみを用いて,トレーニング中に画素レベルラベルが存在しない場合に,分類とセグメンテーションを効果的に学習することができる。
これを行うには、自監督されたViTバックボーンによって生成されたトークンをピクセルレベルの擬似ラベルとしてアテンションマップを使用する。
また、少数のトレーニング画像が接地画素レベルラベルを含み、残りの画像が画像レベルラベルのみを持つ ``mixed" 監督による実用的なセットアップも検討した。
そこで,本研究では,既設の画素レベルラベルを用いて学習した擬似ラベルエンハンサーを用いて擬似ラベルを改善することを提案する。
Pascal-5iとCOCO-20iの実験では、様々な監視設定、特にピクセルレベルの小さいラベルが利用できる場合において、大幅なパフォーマンス向上が示されている。
関連論文リスト
- Label Filling via Mixed Supervision for Medical Image Segmentation from Noisy Annotations [22.910649758574852]
本稿では,LF-Net と呼ばれるシンプルで効果的なラベルフィリングフレームワークを提案する。
トレーニング中にノイズの多いアノテーションのみを付与した、基礎的なセグメンテーションラベルを予測する。
5つのデータセットの結果から、LF-Netは最先端の手法と比較して、すべてのデータセットのセグメンテーション精度を向上することが示された。
論文 参考訳(メタデータ) (2024-10-21T14:36:36Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Token-Label Alignment for Vision Transformers [93.58540411138164]
データ混合戦略(例えば、CutMix)は、畳み込みニューラルネットワーク(CNN)の性能を大幅に改善する能力を示している。
我々は,データ混合戦略の可能性を抑制するトークン変動現象を同定する。
本稿では,各トークンのラベルを保持するために,変換されたトークンと元のトークンとの対応をトレースするトークンラベルアライメント(TL-Align)手法を提案する。
論文 参考訳(メタデータ) (2022-10-12T17:54:32Z) - PLMCL: Partial-Label Momentum Curriculum Learning for Multi-Label Image
Classification [25.451065364433028]
マルチラベル画像分類は、画像内の全ての可能なラベルを予測することを目的としている。
既存の部分ラベル学習の研究は、各トレーニングイメージがラベルのサブセットでアノテートされている場合に焦点を当てている。
本稿では,トレーニング画像のサブセットのみをラベル付けした新たな部分ラベル設定を提案する。
論文 参考訳(メタデータ) (2022-08-22T01:23:08Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Multiple Instance Learning with Mixed Supervision in Gleason Grading [19.314029297579577]
本稿では,複数インスタンス学習フレームワークに基づく複合監視トランスフォーマを提案する。
このモデルは、スライドレベルラベルとインスタンスレベルラベルの両方を使用して、より正確なGleasonグレーディングをスライドレベルで達成する。
SICAPv2データセット上での最先端性能を実現し、視覚解析により、インスタンスレベルの正確な予測結果を示す。
論文 参考訳(メタデータ) (2022-06-26T06:28:44Z) - Mixed Supervision Learning for Whole Slide Image Classification [88.31842052998319]
超高解像度画像のための混合監視学習フレームワークを提案する。
パッチトレーニングの段階では、このフレームワークは、粗いイメージレベルのラベルを使用して、自己教師付き学習を洗練することができる。
画素レベルの偽陽性と偽陰性を抑制するための包括的な戦略が提案されている。
論文 参考訳(メタデータ) (2021-07-02T09:46:06Z) - A Closer Look at Self-training for Zero-Label Semantic Segmentation [53.4488444382874]
トレーニング中に見られないクラスをセグメント化できることは、ディープラーニングにおいて重要な技術的課題です。
事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。
本研究では,同一画像の異なる増分から生じる擬似ラベルの交点を取り出し,ノイズの多い擬似ラベルをフィルタリングする整合性正規化器を提案する。
論文 参考訳(メタデータ) (2021-04-21T14:34:33Z) - Learning from Pixel-Level Label Noise: A New Perspective for
Semi-Supervised Semantic Segmentation [12.937770890847819]
ピクセルレベルのノイズラベルに対処するためのグラフベースのラベルノイズ検出および補正フレームワークを提案する。
特に,クラスアクティベーションマップ(cam)による弱い監督から生成した画素レベルのノイズラベルに対して,強い監督を施したクリーンセグメンテーションモデルを訓練する。
最後に,超画素ベースのグラフを用いて,画像中の画素間の空間的隣接性と意味的類似性の関係を表現する。
論文 参考訳(メタデータ) (2021-03-26T03:23:21Z) - General Multi-label Image Classification with Transformers [30.58248625606648]
視覚的特徴やラベル間の複雑な依存関係を利用するための分類変換器(C-Tran)を提案する。
本手法の重要な要素は,3次符号化方式を用いてラベルの状態を表すラベルマスク訓練目標である。
我々のモデルは、COCOやVisual Genomeのような挑戦的なデータセットに対する最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-11-27T23:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。