論文の概要: LLM meets Vision-Language Models for Zero-Shot One-Class Classification
- arxiv url: http://arxiv.org/abs/2404.00675v3
- Date: Mon, 27 May 2024 08:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:07:03.728434
- Title: LLM meets Vision-Language Models for Zero-Shot One-Class Classification
- Title(参考訳): LLMがゼロショットワンクラス分類のためのビジョンランゲージモデルに到達
- Authors: Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon,
- Abstract要約: ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,あるカテゴリと他のセマンティック関連カテゴリを識別する能力を初めて示す。
- 参考スコア(独自算出の注目度): 4.094697851983375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the problem of zero-shot one-class visual classification, extending traditional one-class classification to scenarios where only the label of the target class is available. This method aims to discriminate between positive and negative query samples without requiring examples from the target class. We propose a two-step solution that first queries large language models for visually confusing objects and then relies on vision-language pre-trained models (e.g., CLIP) to perform classification. By adapting large-scale vision benchmarks, we demonstrate the ability of the proposed method to outperform adapted off-the-shelf alternatives in this setting. Namely, we propose a realistic benchmark where negative query samples are drawn from the same original dataset as positive ones, including a granularity-controlled version of iNaturalist, where negative samples are at a fixed distance in the taxonomy tree from the positive ones. To our knowledge, we are the first to demonstrate the ability to discriminate a single category from other semantically related ones using only its label.
- Abstract(参考訳): ゼロショット・ワンクラスの視覚分類の問題を考えると、従来のワンクラスの分類は対象クラスのラベルのみが利用できるシナリオにまで拡張される。
本手法は,対象クラスからサンプルを必要とせずに,正と負の問合せサンプルを識別することを目的とする。
視覚的に混乱するオブジェクトに対して,まず大きな言語モデルを問合せし,次に視覚言語で事前訓練されたモデル(例えばCLIP)に頼って分類を行う2段階のソリューションを提案する。
大規模ビジョンベンチマークを適応させることで,提案手法が既成の代替品よりも優れた性能を発揮することを示す。
すなわち,iNaturalist の粒度制御バージョンを含む,正のデータセットから負のクエリサンプルを抽出し,正のデータセットから負のサンプルを定距離に抽出する,現実的なベンチマークを提案する。
我々の知る限りでは、私たちはまず、そのラベルのみを用いて、他の意味論的関連カテゴリと1つのカテゴリを区別する能力を示す。
関連論文リスト
- Negative Prototypes Guided Contrastive Learning for WSOD [8.102080369924911]
近年,画像レベルのアノテーションのみを持つ弱監視対象検出(WSOD)が注目されている。
本稿では,Native Prototypes Guided Contrastive Learning Architectureを提案する。
提案手法は最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T08:16:26Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class [16.101460010750458]
クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
論文 参考訳(メタデータ) (2024-04-25T16:29:06Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。
GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。
GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-08T16:41:06Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。
これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。
数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-09-11T11:35:28Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。