論文の概要: Improved Few-Shot Image Classification Through Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2407.16145v1
- Date: Tue, 23 Jul 2024 03:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:45:39.642818
- Title: Improved Few-Shot Image Classification Through Multiple-Choice Questions
- Title(参考訳): 複数項目質問によるFew-Shot画像分類の改善
- Authors: Dipika Khullar, Emmett Goodman, Negin Sokhandan,
- Abstract要約: 本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。
本手法は, 純視覚エンコーダとゼロショットVQAベースラインの両方で性能を向上し, 共通ショットタスクにおける印象的な性能を実現する。
- 参考スコア(独自算出の注目度): 1.4432605069307167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Through a simple multiple choice language prompt a VQA model can operate as a zero-shot image classifier, producing a classification label. Compared to typical image encoders, VQA models offer an advantage: VQA-produced image embeddings can be infused with the most relevant visual information through tailored language prompts. Nevertheless, for most tasks, zero-shot VQA performance is lacking, either because of unfamiliar category names, or dissimilar pre-training data and test data distributions. We propose a simple method to boost VQA performance for image classification using only a handful of labeled examples and a multiple-choice question. This few-shot method is training-free and maintains the dynamic and flexible advantages of the VQA model. Rather than relying on the final language output, our approach uses multiple-choice questions to extract prompt-specific latent representations, which are enriched with relevant visual information. These representations are combined to create a final overall image embedding, which is decoded via reference to latent class prototypes constructed from the few labeled examples. We demonstrate this method outperforms both pure visual encoders and zero-shot VQA baselines to achieve impressive performance on common few-shot tasks including MiniImageNet, Caltech-UCSD Birds, and CIFAR-100. Finally, we show our approach does particularly well in settings with numerous diverse visual attributes such as the fabric, article-style, texture, and view of different articles of clothing, where other few-shot approaches struggle, as we can tailor our image representations only on the semantic features of interest.
- Abstract(参考訳): 単純な複数選択言語によってVQAモデルはゼロショット画像分類器として動作し、分類ラベルを生成する。
典型的な画像エンコーダと比較して、VQAモデルは利点がある: VQAが生成する画像埋め込みは、カスタマイズされた言語プロンプトを通して最も関連性の高い視覚情報で注入できる。
しかしながら、ほとんどのタスクにおいて、ゼロショットのVQAパフォーマンスは、馴染みのないカテゴリ名や、異なる事前学習データとテストデータの分散のために欠落している。
本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。
この数ショット法はトレーニング不要であり、VQAモデルの動的で柔軟な利点を維持している。
提案手法では,最終的な言語出力に頼るのではなく,複数の選択質問を用いて,関連する視覚情報に富むプロンプト固有の潜在表現を抽出する。
これらの表現を組み合わせて最終的な全体像の埋め込みを生成し、いくつかのラベル付き例から構築された潜在クラスのプロトタイプを参照してデコードする。
本手法は,MiniImageNet,Caltech-UCSD Birds,CIFAR-100など,一般的な少数ショットタスクにおいて,純視覚エンコーダとゼロショットVQAベースラインの両方に優れることを示す。
最後に,布地,記事スタイル,テクスチャ,衣服のさまざまな記事のビューなど,多様な視覚的特徴を持つ設定において,他の数発のアプローチでは,興味のある意味的特徴にのみ画像表現をカスタマイズできることが示される。
関連論文リスト
- Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - Multi-Modal Classifiers for Open-Vocabulary Object Detection [104.77331131447541]
本論文の目的は,OVOD(Open-vocabulary Object Detection)である。
標準の2段階オブジェクト検出器アーキテクチャを採用する。
言語記述、画像例、これら2つの組み合わせの3つの方法を探究する。
論文 参考訳(メタデータ) (2023-06-08T18:31:56Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Disambiguation of One-Shot Visual Classification Tasks: A Simplex-Based
Approach [8.436437583394998]
本稿では,複数の物体の存在を検出するための戦略を提案する。
この戦略は、高次元空間における単純体の角を識別することに基づいている。
提案手法は,極端設定における精度をわずかながら統計的に向上させる能力を示す。
論文 参考訳(メタデータ) (2023-01-16T11:37:05Z) - Training and challenging models for text-guided fashion image retrieval [1.4266272677701561]
新たな評価データセットであるChallenging Fashion Queries (CFQ)を導入する。
CFQは、キャプション精度と条件付き画像の類似性の正と負のラベルを持つ相対的なキャプションを含む既存のベンチマークを補完する。
本稿では,タスクに対するマルチモーダル事前訓練の重要性を実証し,属性ラベルに基づくドメイン固有の弱監督が大規模事前訓練を増強できることを示す。
論文 参考訳(メタデータ) (2022-04-23T06:24:23Z) - Self-Supervised VQA: Answering Visual Questions using Images and
Captions [38.05223339919346]
VQAモデルは、トレーニング用に人間のアノテーション付きイメージクエスト・アンサー(I-Q-A)トリプルを使用したデータセットの可用性を前提としている。
人間の注釈付きQ-Aペアを使わずに、画像と関連するテキストキャプションだけでモデルをトレーニングできるかどうかを検討する。
論文 参考訳(メタデータ) (2020-12-04T01:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。