論文の概要: Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment
- arxiv url: http://arxiv.org/abs/2308.12960v3
- Date: Sun, 24 Dec 2023 16:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:10:16.361461
- Title: Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment
- Title(参考訳): 自己構造的セマンティックアライメントによる現実的ゼロショット分類に向けて
- Authors: Sheng Zhang, Muzammal Naseer, Guangyi Chen, Zhiqiang Shen, Salman
Khan, Kun Zhang, Fahad Khan
- Abstract要約: 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.2701026843921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained Vision Language Models (VLMs) have proven effective
for zero-shot classification. Despite the success, most traditional VLMs-based
methods are restricted by the assumption of partial source supervision or ideal
vocabularies, which rarely satisfy the open-world scenario. In this paper, we
aim at a more challenging setting, Realistic Zero-Shot Classification, which
assumes no annotation but instead a broad vocabulary. To address this
challenge, we propose the Self Structural Semantic Alignment (S^3A) framework,
which extracts the structural semantic information from unlabeled data while
simultaneously self-learning. Our S^3A framework adopts a unique
Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups
unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR
process includes iterative clustering on images, voting within each cluster to
identify initial class candidates from the vocabulary, generating
discriminative prompts with large language models to discern confusing
candidates, and realigning images and the vocabulary as structural semantic
alignment. Finally, we propose to self-learn the CLIP image encoder with both
individual and structural semantic alignment through a teacher-student learning
strategy. Our comprehensive experiments across various generic and fine-grained
benchmarks demonstrate that the S^3A method offers substantial improvements
over existing VLMs-based approaches, achieving a more than 15% accuracy
improvement over CLIP on average. Our codes, models, and prompts are publicly
released at https://github.com/sheng-eatamath/S3A.
- Abstract(参考訳): 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
成功したにもかかわらず、ほとんどの伝統的なvlmsベースの手法は、部分的ソース監督や理想的な語彙の仮定によって制限されている。
本稿では,アノテーションを使わずに幅広い語彙を想定した,より難易度の高い,現実的なゼロショット分類を目標とする。
そこで本研究では,無ラベルデータから構造的意味情報を抽出する自己構造的意味的アライメント(s^3a)フレームワークを提案する。
我々のS^3Aフレームワークは独自のCVPR(Cluster-Vote-Prompt-Realign)アルゴリズムを採用している。
我々のCVPRプロセスは、画像上の反復的クラスタリング、各クラスタ内で投票して、語彙から初期クラス候補を特定すること、混乱した候補を識別するために大きな言語モデルによる識別的プロンプトを生成し、構造的意味的アライメントとして画像と語彙を認識させることを含む。
最後に,CLIP画像エンコーダを教師と学生の学習戦略を通じて,個人的・構造的セマンティックアライメントで自己学習することを提案する。
s^3a法が既存のvlms法に比べて大幅に改善され,クリップ平均より15%以上精度が向上したことを示す。
私たちのコード、モデル、プロンプトはhttps://github.com/sheng-eatamath/s3aで公開されています。
関連論文リスト
- Data-Free Generalized Zero-Shot Learning [45.86614536578522]
データフリーゼロショット学習(DFZSL)のための汎用フレームワークを提案する。
我々のフレームワークは、一般化ZSLの5つの一般的なベンチマークと、ベース・ツー・ニューZSLの11のベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-01-28T13:26:47Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [12.872308743619403]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Text2Model: Text-based Model Induction for Zero-shot Image
Classification [41.0122522912593]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
我々は、クラス記述を受け取り、マルチクラスモデルを出力するハイパーネットワークを訓練する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて評価される。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。