論文の概要: LLM meets Vision-Language Models for Zero-Shot One-Class Classification
- arxiv url: http://arxiv.org/abs/2404.00675v2
- Date: Tue, 2 Apr 2024 10:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.103950
- Title: LLM meets Vision-Language Models for Zero-Shot One-Class Classification
- Title(参考訳): LLMがゼロショットワンクラス分類のためのビジョンランゲージモデルに到達
- Authors: Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon,
- Abstract要約: ゼロショットワンクラス視覚分類の問題を考える。
本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。
我々は,そのラベルのみを用いて,一つのカテゴリと他のセマンティックなカテゴリを識別可能であることを示す。
- 参考スコア(独自算出の注目度): 4.094697851983375
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider the problem of zero-shot one-class visual classification. In this setting, only the label of the target class is available, and the goal is to discriminate between positive and negative query samples without requiring any validation example from the target task. We propose a two-step solution that first queries large language models for visually confusing objects and then relies on vision-language pre-trained models (e.g., CLIP) to perform classification. By adapting large-scale vision benchmarks, we demonstrate the ability of the proposed method to outperform adapted off-the-shelf alternatives in this setting. Namely, we propose a realistic benchmark where negative query samples are drawn from the same original dataset as positive ones, including a granularity-controlled version of iNaturalist, where negative samples are at a fixed distance in the taxonomy tree from the positive ones. Our work shows that it is possible to discriminate between a single category and other semantically related ones using only its label
- Abstract(参考訳): ゼロショットワンクラス視覚分類の問題を考える。
この設定では、ターゲットクラスのラベルのみが利用可能であり、目標は、ターゲットタスクからバリデーションサンプルを必要とせずに、正と負のクエリサンプルを区別することである。
視覚的に混乱するオブジェクトに対して,まず大きな言語モデルを問合せし,次に視覚言語で事前訓練されたモデル(例えばCLIP)に頼って分類を行う2段階のソリューションを提案する。
大規模ビジョンベンチマークを適応させることで,提案手法が市販の代替品よりも優れた性能を発揮することを示す。
すなわち,iNaturalist の粒度制御バージョンを含む,正のデータセットから負のクエリサンプルを抽出し,正のデータセットから負のサンプルを定距離に抽出する,現実的なベンチマークを提案する。
我々の研究は、そのラベルのみを用いて、一つのカテゴリと他のセマンティックなカテゴリを区別することが可能であることを示している。
関連論文リスト
- Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class [16.101460010750458]
クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。
そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。
提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
論文 参考訳(メタデータ) (2024-04-25T16:29:06Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - Self-Adaptive Label Augmentation for Semi-supervised Few-shot
Classification [121.63992191386502]
Few-shotの分類は、ラベル付きサンプルがわずかにあれば、新しいタスクをうまく一般化できるモデルを学ぶことを目的としている。
そこで本研究では,手動で定義した指標を用いて,ラベルのない各サンプルに適切なラベルを割り当てる半教師付き小ショット分類手法を提案する。
SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。
論文 参考訳(メタデータ) (2022-06-16T13:14:03Z) - Language Models in the Loop: Incorporating Prompting into Weak
Supervision [11.10422546502386]
本稿では,ラベル付きトレーニングデータに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。
典型的にゼロショットや少数ショットの方法でモデルを適用する代わりに、弱い監督フレームワークにおける関数のラベル付けの基盤としてモデルを扱います。
論文 参考訳(メタデータ) (2022-05-04T20:42:40Z) - Explicitly Modeling the Discriminability for Instance-Aware Visual
Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。
提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。
どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文 参考訳(メタデータ) (2021-10-28T11:24:01Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。