論文の概要: CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets
- arxiv url: http://arxiv.org/abs/2302.02551v2
- Date: Tue, 7 Feb 2023 04:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 12:15:32.468766
- Title: CHiLS: Zero-Shot Image Classification with Hierarchical Label Sets
- Title(参考訳): CHiLS:階層ラベル集合を用いたゼロショット画像分類
- Authors: Zachary Novack, Saurabh Garg, Julian McAuley, Zachary C. Lipton
- Abstract要約: オープン語彙モデル(例えばCLIP)はゼロショット分類において強い性能を示している。
暗黙的な意味的階層を持つデータセットに対する階層的ラベルセット(CHiLS)を用いた分類を提案する。
CHiLSは既存のCLIPパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
- 参考スコア(独自算出の注目度): 24.868024094095983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open vocabulary models (e.g. CLIP) have shown strong performance on zero-shot
classification through their ability generate embeddings for each class based
on their (natural language) names. Prior work has focused on improving the
accuracy of these models through prompt engineering or by incorporating a small
amount of labeled downstream data (via finetuning). However, there has been
little focus on improving the richness of the class names themselves, which can
pose issues when class labels are coarsely-defined and uninformative. We
propose Classification with Hierarchical Label Sets (or CHiLS), an alternative
strategy for zero-shot classification specifically designed for datasets with
implicit semantic hierarchies. CHiLS proceeds in three steps: (i) for each
class, produce a set of subclasses, using either existing label hierarchies or
by querying GPT-3; (ii) perform the standard zero-shot CLIP procedure as though
these subclasses were the labels of interest; (iii) map the predicted subclass
back to its parent to produce the final prediction. Across numerous datasets
with underlying hierarchical structure, CHiLS leads to improved accuracy in
situations both with and without ground-truth hierarchical information. CHiLS
is simple to implement within existing CLIP pipelines and requires no
additional training cost. Code is available at:
https://github.com/acmi-lab/CHILS.
- Abstract(参考訳): オープン語彙モデル(例えばCLIP)は、ゼロショット分類において、各クラス(自然言語)の名前に基づいて埋め込みを生成する能力を通じて、強い性能を示している。
事前の作業は、プロンプトエンジニアリングや(微調整による)少量のラベル付きダウンストリームデータの導入による、これらのモデルの精度の向上に重点を置いている。
しかし、クラス名自体の豊かさの改善にはほとんど焦点が当てられていないため、クラスラベルが粗い定義で非形式的である場合に問題が発生する可能性がある。
暗黙的な意味階層を持つデータセット用に特別に設計されたゼロショット分類の代替戦略である階層ラベル集合(chils)を用いた分類を提案する。
CHiLSは3つのステップで進みます。
i) 各クラスに対して、既存のラベル階層またはGPT-3をクエリすることで、一連のサブクラスを生成する。
(ii)これらのサブクラスが関心のラベルであるかのように、標準のゼロショットCLIP手順を実行する。
(iii)予測サブクラスを親にマップして最終的な予測を生成する。
基盤となる階層構造を持つ多数のデータセットにわたって、chilsは階層情報の有無に関わらず、状況において精度が向上する。
CHiLSは既存のCLIPパイプラインで簡単に実装でき、追加のトレーニングコストを必要としない。
コードは、https://github.com/acmi-lab/CHILS.comで入手できる。
関連論文リスト
- Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。
LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。
階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文 参考訳(メタデータ) (2024-09-22T00:10:20Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision [41.05874642535256]
階層的なテキスト分類は、ラベル分類における各文書を一連のクラスに分類することを目的としている。
初期の研究は、大量の人間の注釈付きデータを必要とする完全または半教師付き手法に重点を置いていた。
我々は、最小限の監督量で階層的なテキスト分類に取り組んでおり、各ノードのクラス名のみを唯一の監督として使用しています。
論文 参考訳(メタデータ) (2024-02-29T22:26:07Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Instance-level Few-shot Learning with Class Hierarchy Mining [26.273796311012042]
我々は階層的な情報を利用して、新しいオブジェクトを効果的に分類するために、基本クラスの識別的および関連する特徴を活用する。
これらの特徴は、不足したデータを持つクラスを合理的に記述するために使用できる、ベースクラスの豊富なデータから抽出される。
FSISにおける階層型検出器を効果的に訓練するために,細粒度クラス間の関係をより詳細に記述するためにラベル改良を適用した。
論文 参考訳(メタデータ) (2023-04-15T02:55:08Z) - Inducing a hierarchy for multi-class classification problems [11.58041597483471]
分類的ラベルが自然な階層に従ったアプリケーションでは、ラベル構造を利用する分類方法は、そうでないものをしばしば上回る。
本稿では,フラット分類器に対する分類性能を向上できる階層構造を誘導する手法のクラスについて検討する。
原理シミュレーションと3つの実データアプリケーションにおいて、潜入階層の発見と精度向上のためのメソッドのクラスの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-20T05:40:42Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。