論文の概要: Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment
- arxiv url: http://arxiv.org/abs/2308.12960v3
- Date: Sun, 24 Dec 2023 16:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:10:16.361461
- Title: Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment
- Title(参考訳): 自己構造的セマンティックアライメントによる現実的ゼロショット分類に向けて
- Authors: Sheng Zhang, Muzammal Naseer, Guangyi Chen, Zhiqiang Shen, Salman
Khan, Kun Zhang, Fahad Khan
- Abstract要約: 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 53.2701026843921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained Vision Language Models (VLMs) have proven effective
for zero-shot classification. Despite the success, most traditional VLMs-based
methods are restricted by the assumption of partial source supervision or ideal
vocabularies, which rarely satisfy the open-world scenario. In this paper, we
aim at a more challenging setting, Realistic Zero-Shot Classification, which
assumes no annotation but instead a broad vocabulary. To address this
challenge, we propose the Self Structural Semantic Alignment (S^3A) framework,
which extracts the structural semantic information from unlabeled data while
simultaneously self-learning. Our S^3A framework adopts a unique
Cluster-Vote-Prompt-Realign (CVPR) algorithm, which iteratively groups
unlabeled data to derive structural semantics for pseudo-supervision. Our CVPR
process includes iterative clustering on images, voting within each cluster to
identify initial class candidates from the vocabulary, generating
discriminative prompts with large language models to discern confusing
candidates, and realigning images and the vocabulary as structural semantic
alignment. Finally, we propose to self-learn the CLIP image encoder with both
individual and structural semantic alignment through a teacher-student learning
strategy. Our comprehensive experiments across various generic and fine-grained
benchmarks demonstrate that the S^3A method offers substantial improvements
over existing VLMs-based approaches, achieving a more than 15% accuracy
improvement over CLIP on average. Our codes, models, and prompts are publicly
released at https://github.com/sheng-eatamath/S3A.
- Abstract(参考訳): 大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
成功したにもかかわらず、ほとんどの伝統的なvlmsベースの手法は、部分的ソース監督や理想的な語彙の仮定によって制限されている。
本稿では,アノテーションを使わずに幅広い語彙を想定した,より難易度の高い,現実的なゼロショット分類を目標とする。
そこで本研究では,無ラベルデータから構造的意味情報を抽出する自己構造的意味的アライメント(s^3a)フレームワークを提案する。
我々のS^3Aフレームワークは独自のCVPR(Cluster-Vote-Prompt-Realign)アルゴリズムを採用している。
我々のCVPRプロセスは、画像上の反復的クラスタリング、各クラスタ内で投票して、語彙から初期クラス候補を特定すること、混乱した候補を識別するために大きな言語モデルによる識別的プロンプトを生成し、構造的意味的アライメントとして画像と語彙を認識させることを含む。
最後に,CLIP画像エンコーダを教師と学生の学習戦略を通じて,個人的・構造的セマンティックアライメントで自己学習することを提案する。
s^3a法が既存のvlms法に比べて大幅に改善され,クリップ平均より15%以上精度が向上したことを示す。
私たちのコード、モデル、プロンプトはhttps://github.com/sheng-eatamath/s3aで公開されています。
関連論文リスト
- Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。