論文の概要: LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and
Unlabeled Image Collections
- arxiv url: http://arxiv.org/abs/2305.18287v1
- Date: Mon, 29 May 2023 17:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 13:33:13.101897
- Title: LaFTer: Label-Free Tuning of Zero-shot Classifier using Language and
Unlabeled Image Collections
- Title(参考訳): LaFTer: 言語とラベルなしイメージコレクションを用いたゼロショット分類器のラベルなしチューニング
- Authors: M. Jehanzeb Mirza, Leonid Karlinsky, Wei Lin, Mateusz Kozinski, Horst
Possegger, Rogerio Feris, Horst Bischof
- Abstract要約: 大規模事前訓練型ビジョン・アンド・ランゲージ(VL)モデルでは、ゼロショット視覚分類において新しい最先端(SOTA)が設定されている。
初めて、ラベルなしで、ペア化されたVLデータなしで、このギャップを減らせる方法を示します。
- 参考スコア(独自算出の注目度): 20.126944411162494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large-scale pre-trained Vision and Language (VL) models have set a
new state-of-the-art (SOTA) in zero-shot visual classification enabling
open-vocabulary recognition of potentially unlimited set of categories defined
as simple language prompts. However, despite these great advances, the
performance of these zeroshot classifiers still falls short of the results of
dedicated (closed category set) classifiers trained with supervised fine
tuning. In this paper we show, for the first time, how to reduce this gap
without any labels and without any paired VL data, using an unlabeled image
collection and a set of texts auto-generated using a Large Language Model (LLM)
describing the categories of interest and effectively substituting labeled
visual instances of those categories. Using our label-free approach, we are
able to attain significant performance improvements over the zero-shot
performance of the base VL model and other contemporary methods and baselines
on a wide variety of datasets, demonstrating absolute improvement of up to
11.7% (3.8% on average) in the label-free setting. Moreover, despite our
approach being label-free, we observe 1.3% average gains over leading few-shot
prompting baselines that do use 5-shot supervision.
- Abstract(参考訳): 近年,大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルでは,単純な言語プロンプトとして定義された潜在的に無制限なカテゴリの開語彙認識を可能にするゼロショット視覚分類において,新たな最先端(SOTA)が設定されている。
しかし、これらの大きな進歩にもかかわらず、これらのゼロショット分類器の性能は、教師付き微調整で訓練された専用(閉圏集合)分類器の結果に及ばない。
本稿では,ラベルのないVLデータとラベルなしのVLデータと,興味のあるカテゴリを記述したLarge Language Model (LLM) を用いて自動生成するテキストの集合を用いて,このギャップを初めて削減する方法を示し,それらのカテゴリのラベル付きビジュアルインスタンスを効果的に置換する。
ラベルフリーアプローチを用いることで、ベースVLモデルのゼロショット性能や、さまざまなデータセット上での現代的な手法やベースラインよりも大幅にパフォーマンスが改善され、ラベルフリー環境では最大11.7%(平均3.8%)の絶対的な改善が示される。
さらに,ラベルのないアプローチであっても,5ショットの監督を行うベースラインを先導する数ショットよりも平均1.3%向上する。
関連論文リスト
- Label Propagation for Zero-shot Classification with Vision-Language Models [17.50253820510074]
本稿では,ラベルなしデータの存在下でのゼロショット分類に挑戦する。
分類に測地距離を利用するラベル伝搬(LP)に基づくZLaPを導入する。
提案手法の有効性を14の共通データセットで評価し,ZLaPが最新の研究より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-05T12:58:07Z) - LLM meets Vision-Language Models for Zero-Shot One-Class Classification [4.094697851983375]
ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,あるカテゴリと他のセマンティック関連カテゴリを識別する能力を初めて示す。
論文 参考訳(メタデータ) (2024-03-31T12:48:07Z) - Improved Zero-Shot Classification by Adapting VLMs with Text Descriptions [24.596929878045568]
我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。
我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-04T08:39:13Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Generalized Category Discovery [148.32255950504182]
本稿では,ラベル付き画像集合とラベル付き画像集合とを併用した画像認識手法を提案する。
ここでは、未表示の画像はラベル付きクラスから、あるいは新しいものから来ているかもしれない。
まず、新しいカテゴリー発見から最先端のアルゴリズムを取り入れ、そのタスクに適応することで、強力なベースラインを確立する。
次に、単純だが効果的な半教師付き$k$-meansメソッドを導入する。
論文 参考訳(メタデータ) (2022-01-07T18:58:35Z) - AutoNovel: Automatically Discovering and Learning Novel Visual
Categories [138.80332861066287]
本稿では,他のクラスをラベル付けしたイメージコレクションにおける新しいクラス発見問題に対処するため,AutoNovelと呼ばれる新しいアプローチを提案する。
我々はAutoNovelを標準分類ベンチマークで評価し、新しいカテゴリー発見の手法をかなり上回っている。
論文 参考訳(メタデータ) (2021-06-29T11:12:16Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。