論文の概要: Super-class guided Transformer for Zero-Shot Attribute Classification
- arxiv url: http://arxiv.org/abs/2501.05728v2
- Date: Thu, 16 Jan 2025 17:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:28.631466
- Title: Super-class guided Transformer for Zero-Shot Attribute Classification
- Title(参考訳): ゼロショット属性分類のためのスーパークラス誘導変換器
- Authors: Sehyung Kim, Chanhyeong Yang, Jihwan Park, Taehoon Song, Hyunwoo J. Kim,
- Abstract要約: ゼロショット属性分類におけるスケーラビリティと一般化性を高めるために,スーパークラスガイドトランスフォーマー(SugaFormer)を提案する。
SugaFormerは、クエリ数を減らすためにSuper-class Query Initialization (SQI)を採用し、多様なビジュアルキューを処理するためにMulti-context Decoding (MD)を組み込んでいる。
SugaFormerは、ゼロショットとクロスデータセット転送設定の下で、広く使われている3つの属性分類ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.747720161654197
- License:
- Abstract: Attribute classification is crucial for identifying specific characteristics within image regions. Vision-Language Models (VLMs) have been effective in zero-shot tasks by leveraging their general knowledge from large-scale datasets. Recent studies demonstrate that transformer-based models with class-wise queries can effectively address zero-shot multi-label classification. However, poor utilization of the relationship between seen and unseen attributes makes the model lack generalizability. Additionally, attribute classification generally involves many attributes, making maintaining the model's scalability difficult. To address these issues, we propose Super-class guided transFormer (SugaFormer), a novel framework that leverages super-classes to enhance scalability and generalizability for zero-shot attribute classification. SugaFormer employs Super-class Query Initialization (SQI) to reduce the number of queries, utilizing common semantic information from super-classes, and incorporates Multi-context Decoding (MD) to handle diverse visual cues. To strengthen generalizability, we introduce two knowledge transfer strategies that utilize VLMs. During training, Super-class guided Consistency Regularization (SCR) aligns model's features with VLMs using super-class guided prompts, and during inference, Zero-shot Retrieval-based Score Enhancement (ZRSE) refines predictions for unseen attributes. Extensive experiments demonstrate that SugaFormer achieves state-of-the-art performance across three widely-used attribute classification benchmarks under zero-shot, and cross-dataset transfer settings. Our code is available at https://github.com/mlvlab/SugaFormer.
- Abstract(参考訳): 属性分類は、画像領域内の特定の特徴を特定するために重要である。
VLM(Vision-Language Models)は、大規模なデータセットからの一般的な知識を活用することで、ゼロショットタスクに有効である。
近年の研究では、クラスワイドクエリを用いたトランスフォーマーベースモデルが、ゼロショットマルチラベル分類に効果的に対処できることが示されている。
しかし、見知らぬ属性と見つからない属性の関係の貧弱な利用により、モデルは一般化性に欠ける。
加えて、属性分類は一般的に多くの属性を伴い、モデルのスケーラビリティを維持するのが難しくなる。
これらの問題に対処するため,ゼロショット属性分類におけるスケーラビリティと一般化性を高めるために,スーパークラスを活用した新しいフレームワークであるSuper-class guided transFormer (SugaFormer)を提案する。
SugaFormerは、スーパークラスクエリ初期化(SQI)を使用してクエリ数を減らし、スーパークラスからの共通セマンティック情報を活用する。
一般化性を高めるために,VLMを利用する2つの知識伝達戦略を導入する。
トレーニング中、SCR(Super-class guided Consistency Regularization)は、スーパークラスガイドプロンプトを使用してモデルの特徴をVLMと整列させ、推論中はゼロショット検索ベースのスコアエンハンスメント(ZRSE)により、目に見えない属性の予測が洗練される。
広汎な実験により、SugaFormerは、ゼロショットとクロスデータセット転送設定の下で、広く使われている3つの属性分類ベンチマークで最先端のパフォーマンスを達成している。
私たちのコードはhttps://github.com/mlvlab/SugaFormer.comから入手可能です。
関連論文リスト
- Queryable Prototype Multiple Instance Learning with Vision-Language Models for Incremental Whole Slide Image Classification [10.667645628712542]
ホイルスライド画像(WSI)分類は臨床病理学に非常に重要な応用例である。
本稿では, 逐次WSI分類に特化して設計された, Queryable Prototype Multiple Instance Learning (QPMIL-VL) を用いた視覚言語ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T14:49:34Z) - Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class [16.101460010750458]
クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
論文 参考訳(メタデータ) (2024-04-25T16:29:06Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。
ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。
まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。
第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Exploring Fine-Grained Representation and Recomposition for Cloth-Changing Person Re-Identification [78.52704557647438]
補助的なアノテーションやデータなしに両方の制約に対処するために,新しいFIne-fine Representation and Recomposition (FIRe$2$) フレームワークを提案する。
FIRe$2$は、広く使われている5つのRe-IDベンチマークで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-08-21T12:59:48Z) - Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update
and Hyper-class Representation [30.558312809285905]
EHNetは、目覚ましいアドバンテージで、最先端の新たなパフォーマンスを実現している。
PASCAL-5iとCOCOデータセットの実験により、EHNetは、目覚ましいアドバンテージで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-07-26T15:20:07Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。
本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文 参考訳(メタデータ) (2020-08-19T06:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。