Fugu-MT 論文翻訳(概要): LLM meets Vision-Language Models for Zero-Shot One-Class Classification

論文の概要: LLM meets Vision-Language Models for Zero-Shot One-Class Classification

arxiv url: http://arxiv.org/abs/2404.00675v2
Date: Tue, 2 Apr 2024 10:59:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 02:20:51.103950
Title: LLM meets Vision-Language Models for Zero-Shot One-Class Classification
Title（参考訳）: LLMがゼロショットワンクラス分類のためのビジョンランゲージモデルに到達
Authors: Yassir Bendou, Giulia Lioi, Bastien Pasdeloup, Lukas Mauch, Ghouthi Boukli Hacene, Fabien Cardinaux, Vincent Gripon,
Abstract要約: ゼロショットワンクラス視覚分類の問題を考える。本稿では、視覚的に混乱するオブジェクトに対して、まず大きな言語モデルをクエリする2段階のソリューションを提案する。我々は,そのラベルのみを用いて,一つのカテゴリと他のセマンティックなカテゴリを識別可能であることを示す。
参考スコア（独自算出の注目度）: 4.094697851983375
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We consider the problem of zero-shot one-class visual classification. In this setting, only the label of the target class is available, and the goal is to discriminate between positive and negative query samples without requiring any validation example from the target task. We propose a two-step solution that first queries large language models for visually confusing objects and then relies on vision-language pre-trained models (e.g., CLIP) to perform classification. By adapting large-scale vision benchmarks, we demonstrate the ability of the proposed method to outperform adapted off-the-shelf alternatives in this setting. Namely, we propose a realistic benchmark where negative query samples are drawn from the same original dataset as positive ones, including a granularity-controlled version of iNaturalist, where negative samples are at a fixed distance in the taxonomy tree from the positive ones. Our work shows that it is possible to discriminate between a single category and other semantically related ones using only its label
Abstract（参考訳）: ゼロショットワンクラス視覚分類の問題を考える。この設定では、ターゲットクラスのラベルのみが利用可能であり、目標は、ターゲットタスクからバリデーションサンプルを必要とせずに、正と負のクエリサンプルを区別することである。視覚的に混乱するオブジェクトに対して,まず大きな言語モデルを問合せし,次に視覚言語で事前訓練されたモデル(例えばCLIP)に頼って分類を行う2段階のソリューションを提案する。大規模ビジョンベンチマークを適応させることで,提案手法が市販の代替品よりも優れた性能を発揮することを示す。すなわち,iNaturalist の粒度制御バージョンを含む,正のデータセットから負のクエリサンプルを抽出し,正のデータセットから負のサンプルを定距離に抽出する,現実的なベンチマークを提案する。我々の研究は、そのラベルのみを用いて、一つのカテゴリと他のセマンティックなカテゴリを区別することが可能であることを示している。

関連論文リスト

Prompt Tuning Vision Language Models with Margin Regularizer for Few-Shot Learning under Distribution Shifts [13.21626568246313]
視覚言語基礎モデルが、分布やクラスが全く異なるデータセットに適応できるかどうかを解析する。本稿では,少数のサンプルに対して,このような大規模VLMを直接適用するための新しいプロンプトチューニング手法であるPromptMarginを提案する。 PromptMarginは、このタスクのテキストと視覚的なプロンプトを効果的に調整し、2つのメインモジュールを持っている。
論文参考訳（メタデータ） (2025-05-21T13:26:56Z)
Negative Prototypes Guided Contrastive Learning for WSOD [8.102080369924911]
近年,画像レベルのアノテーションのみを持つ弱監視対象検出(WSOD)が注目されている。本稿では,Native Prototypes Guided Contrastive Learning Architectureを提案する。提案手法は最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-04T08:16:26Z)
Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文参考訳（メタデータ） (2024-05-06T15:38:32Z)
Embracing Diversity: Interpretable Zero-shot classification beyond one vector per class [16.101460010750458]
クラス内の多様性を表現するために、ゼロショット分類は単一のベクトルを超えるべきであると論じる。そこで本研究では,ゼロショット設定において,推論属性を用いたクラス内の多様性のエンコードと説明を行う手法を提案する。提案手法は,大規模なデータセット群に対して,標準ゼロショット分類よりも一貫して優れることがわかった。
論文参考訳（メタデータ） (2024-04-25T16:29:06Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。 PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-01T15:14:58Z)
Learning Classifiers of Prototypes and Reciprocal Points for Universal Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文参考訳（メタデータ） (2022-12-16T09:01:57Z)
A Gating Model for Bias Calibration in Generalized Zero-shot Learning [18.32369721322249]
汎用ゼロショット学習(GZSL)は,補助情報のみを用いることで,見つからないクラスデータに一般化できるモデルを訓練することを目的とする。 GZSLの主な課題の1つは、トレーニング中に利用可能なクラスデータのみに過度に適合することに起因する、見かけたクラスに対するバイアス付きモデル予測である。 GZSLのための2ストリームオートエンコーダに基づくゲーティングモデルを提案する。
論文参考訳（メタデータ） (2022-03-08T16:41:06Z)
CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文参考訳（メタデータ） (2021-01-18T12:46:24Z)
Learning and Evaluating Representations for Deep One-class Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文参考訳（メタデータ） (2020-11-04T23:33:41Z)
Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文参考訳（メタデータ） (2020-09-11T11:35:28Z)
Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文参考訳（メタデータ） (2020-08-06T05:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。