論文の概要: SPTNet: An Efficient Alternative Framework for Generalized Category Discovery with Spatial Prompt Tuning
- arxiv url: http://arxiv.org/abs/2403.13684v2
- Date: Mon, 20 May 2024 05:12:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 18:12:24.580225
- Title: SPTNet: An Efficient Alternative Framework for Generalized Category Discovery with Spatial Prompt Tuning
- Title(参考訳): SPTNet:空間プロンプトチューニングによる一般化カテゴリー発見のための効率的な代替フレームワーク
- Authors: Hongjun Wang, Sagar Vaze, Kai Han,
- Abstract要約: Generalized Category Discovery (GCD) は、目に見えない画像と見えない画像の両方を分類することを目的としている。
SPTNetと呼ばれる2段階適応手法を導入し、モデルパラメータとデータパラメータを反復的に最適化する。
提案手法は,標準ベンチマークにおける既存のGCD法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 17.520137576423593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Category Discovery (GCD) aims to classify unlabelled images from both `seen' and `unseen' classes by transferring knowledge from a set of labelled `seen' class images. A key theme in existing GCD approaches is adapting large-scale pre-trained models for the GCD task. An alternate perspective, however, is to adapt the data representation itself for better alignment with the pre-trained model. As such, in this paper, we introduce a two-stage adaptation approach termed SPTNet, which iteratively optimizes model parameters (i.e., model-finetuning) and data parameters (i.e., prompt learning). Furthermore, we propose a novel spatial prompt tuning method (SPT) which considers the spatial property of image data, enabling the method to better focus on object parts, which can transfer between seen and unseen classes. We thoroughly evaluate our SPTNet on standard benchmarks and demonstrate that our method outperforms existing GCD methods. Notably, we find our method achieves an average accuracy of 61.4% on the SSB, surpassing prior state-of-the-art methods by approximately 10%. The improvement is particularly remarkable as our method yields extra parameters amounting to only 0.117% of those in the backbone architecture. Project page: https://visual-ai.github.io/sptnet.
- Abstract(参考訳): Generalized Category Discovery (GCD) は、'seen' クラスと 'unseen' クラスの両方から、ラベル付き 'seen' クラスのイメージのセットから知識を転送することで、未ラベルのイメージを分類することを目的としている。
既存のGCDのアプローチにおける重要なテーマは、GCDタスクのために大規模な事前訓練されたモデルを適用することである。
しかし、代替的な視点は、データ表現自体を事前訓練されたモデルとの整合性に適応させることである。
そこで本研究では,モデルパラメータ(モデルファインタニング)とデータパラメータ(即時学習)を反復的に最適化する,SPTNetと呼ばれる2段階適応手法を提案する。
さらに,画像データの空間特性を考慮した空間的プロンプトチューニング手法(SPT)を提案する。
我々は,SPTNetを標準ベンチマークで徹底的に評価し,既存のGCD法よりも優れていることを示す。
特に, 従来の最先端手法を約10%超えて, SSBの平均精度は61.4%であることがわかった。
我々の手法はバックボーンアーキテクチャの0.117%のパラメータを余分に生成するので、この改善は特に顕著である。
プロジェクトページ: https://visual-ai.github.io/sptnet.com
関連論文リスト
- Hyperspherical Classification with Dynamic Label-to-Prototype Assignment [5.978350039412277]
トレーニング中に各プロトタイプに割り当てられたカテゴリを最適化する,シンプルで効果的な手法を提案する。
この最適化は、勾配降下とバイパルチドマッチングの逐次組み合わせを用いて解決する。
CIFAR-100では1.22%の精度で、ImageNet-200では2.15%の精度で競合他社よりも優れています。
論文 参考訳(メタデータ) (2024-03-25T17:01:34Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models [37.574691902971296]
本稿では,大規模事前学習モデルの強力な特徴表現を利用した画像クラスタリングパイプラインを提案する。
パイプラインは、CIFAR-10、CIFAR-100、ImageNet-1kなどの標準データセットでうまく動作することを示す。
論文 参考訳(メタデータ) (2023-06-08T15:20:27Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Transferability Estimation using Bhattacharyya Class Separability [37.52588126267552]
トランスファーラーニング(Transfer Learning)は、コンピュータビジョンにおいて事前訓練されたモデルを活用する一般的な方法である。
特定の目標タスクに適した事前学習されたソースモデルを定量化することは困難である。
本稿では,ソースモデルとターゲットデータセット間の転送可能性の定量化手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T20:22:28Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Bayesian Few-Shot Classification with One-vs-Each P\'olya-Gamma
Augmented Gaussian Processes [7.6146285961466]
FSC(Few-shot Classification)は、人間のような機械学習への道のりの重要なステップである。
P'olya-Gamma augmentation と one-vs-each softmax approximation の新たな組み合わせを提案する。
標準的な数ショット分類ベンチマークと数ショットドメイン転送タスクの両方において、精度の向上と不確かさの定量化を実証した。
論文 参考訳(メタデータ) (2020-07-20T19:10:41Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。