論文の概要: Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts
- arxiv url: http://arxiv.org/abs/2503.02248v1
- Date: Tue, 04 Mar 2025 03:54:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:00.096577
- Title: Making Better Mistakes in CLIP-Based Zero-Shot Classification with Hierarchy-Aware Language Prompts
- Title(参考訳): 階層型言語プロンプトを用いたCLIPベースのゼロショット分類における誤りの改善
- Authors: Tong Liang, Jim Davis,
- Abstract要約: 私たちはCLIPベースのゼロショット分類において、より良い誤りを犯すことを紹介します。
提案手法は, 5つのデータセットの総合的な比較において, 関連手法よりも優れている。
- 参考スコア(独自算出の注目度): 2.967024581564439
- License:
- Abstract: Recent studies are leveraging advancements in large language models (LLMs) trained on extensive internet-crawled text data to generate textual descriptions of downstream classes in CLIP-based zero-shot image classification. While most of these approaches aim at improving accuracy, our work focuses on ``making better mistakes", of which the mistakes' severities are derived from the given label hierarchy of downstream tasks. Since CLIP's image encoder is trained with language supervising signals, it implicitly captures the hierarchical semantic relationships between different classes. This motivates our goal of making better mistakes in zero-shot classification, a task for which CLIP is naturally well-suited. Our approach (HAPrompts) queries the language model to produce textual representations for given classes as zero-shot classifiers of CLIP to perform image classification on downstream tasks. To our knowledge, this is the first work to introduce making better mistakes in CLIP-based zero-shot classification. Our approach outperforms the related methods in a holistic comparison across five datasets of varying scales with label hierarchies of different heights in our experiments. Our code and LLM-generated image prompts: \href{https://github.com/ltong1130ztr/HAPrompts}{https://github.com/ltong1130ztr/HAPrompts}.
- Abstract(参考訳): 近年,CLIPをベースとしたゼロショット画像分類において,大規模な言語モデル (LLM) の発達を利用して,下流クラスのテキスト記述を生成する研究が進められている。
これらのアプローチのほとんどは精度の向上を目標としていますが、我々の研究は、下流タスクのラベル階層からミスの重大さを導き出す「より良い間違いを犯す」ことに焦点を当てています。
CLIPのイメージエンコーダは言語監視信号で訓練されているため、クラス間の階層的セマンティックな関係を暗黙的にキャプチャする。
これは、CLIPが自然に適しているタスクであるゼロショット分類において、より良いミスを行うことを目標にしています。
我々のアプローチ(HAPrompts)は、CLIPのゼロショット分類器として与えられたクラスのテキスト表現を生成するために言語モデルに問い合わせ、下流タスクで画像分類を行う。
私たちの知る限り、これはCLIPベースのゼロショット分類において、より良いミスを犯すための最初の取り組みです。
提案手法は, 異なる高さのラベル階層と, 異なるスケールの5つのデータセットの全体的比較において, 関連手法よりも優れていた。
私たちのコードとLLM生成したイメージは、次のようになる。 \href{https://github.com/ltong1130ztr/HAPrompts}{https://github.com/ltong1130ztr/HAPrompts}。
関連論文リスト
- CRoF: CLIP-based Robust Few-shot Learning on Noisy Labels [12.69583354123737]
ノイズラベルは、新しいドメインにおける不正確な特徴のために、数発の学習の頑丈さを脅かす。
雑音ラベル,CLIPベースのRobst Few-shot Learning(CRoF)の影響を緩和する新しい視点を提供する。
CRoFはCLIPベースのモデルのための一般的なプラグインモジュールである。
論文 参考訳(メタデータ) (2024-12-17T10:56:18Z) - Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation [12.994898879803642]
CLIP-Decoderは最先端のML-Decoderアテンションベースのヘッドに基づく新しい手法である。
CLIP-Decoderにマルチモーダル表現学習を導入し、テキストエンコーダを用いてテキスト特徴と画像特徴抽出のための画像エンコーダを抽出する。
本手法は,ゼロショット学習マルチラベル分類タスクにおける既存の手法と比較して,絶対的な性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-21T02:19:26Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - ChatGPT-Powered Hierarchical Comparisons for Image Classification [12.126353699873281]
大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。
クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
論文 参考訳(メタデータ) (2023-11-01T00:26:40Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。