論文の概要: Leveraging Multiple Descriptive Features for Robust Few-shot Image
Learning
- arxiv url: http://arxiv.org/abs/2307.04317v1
- Date: Mon, 10 Jul 2023 03:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:21:17.812383
- Title: Leveraging Multiple Descriptive Features for Robust Few-shot Image
Learning
- Title(参考訳): 複数記述機能を活用したロバストな少数ショット画像学習
- Authors: Zhili Feng, Anna Bair, J. Zico Kolter
- Abstract要約: クラスごとの複数の視覚的特徴の理解に類似した別のアプローチが、頑健な数ショット学習環境で魅力的なパフォーマンスを提供できることを示す。
特に、大きな言語モデル(LLM)を介して、各クラスの複数の視覚的記述を自動的に列挙し、視覚イメージモデルを使用して、これらの記述を各画像の複数の視覚的特徴のセットに変換する。
これはどちらも、各クラスに関連する一連の直感的な機能を提供し、数ショットの学習設定では、線形プローブのような標準的なアプローチよりも優れています。
- 参考スコア(独自算出の注目度): 79.51973736647085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern image classification is based upon directly predicting model classes
via large discriminative networks, making it difficult to assess the intuitive
visual ``features'' that may constitute a classification decision. At the same
time, recent works in joint visual language models such as CLIP provide ways to
specify natural language descriptions of image classes but typically focus on
providing single descriptions for each class. In this work, we demonstrate that
an alternative approach, arguably more akin to our understanding of multiple
``visual features'' per class, can also provide compelling performance in the
robust few-shot learning setting. In particular, we automatically enumerate
multiple visual descriptions of each class -- via a large language model (LLM)
-- then use a vision-image model to translate these descriptions to a set of
multiple visual features of each image; we finally use sparse logistic
regression to select a relevant subset of these features to classify each
image. This both provides an ``intuitive'' set of relevant features for each
class, and in the few-shot learning setting, outperforms standard approaches
such as linear probing. When combined with finetuning, we also show that the
method is able to outperform existing state-of-the-art finetuning approaches on
both in-distribution and out-of-distribution performance.
- Abstract(参考訳): 現代の画像分類は、大きな識別ネットワークを介してモデルクラスを直接予測することに基づいており、分類決定を構成する直観的な視覚的な「特徴」を評価するのが困難である。
同時に、CLIPのような統合ビジュアル言語モデルにおける最近の研究は、イメージクラスの自然言語記述を指定する方法を提供するが、通常、各クラスに単一の記述を提供することに集中する。
本研究では,クラスごとの「視覚的特徴」の理解に類似した代替手法が,頑健な数ショットの学習環境において魅力的なパフォーマンスを提供できることを示す。
特に、私たちは自動的に各クラスの複数のビジュアル記述を列挙します -- 大きな言語モデル(llm)を介して -- ビジョン画像モデルを使用して、これらの記述を各画像の複数のビジュアル特徴のセットに翻訳します。
これはどちらも、各クラスに関連する機能の‘直観的’セットを提供し、わずかな学習設定では、線形プローブのような標準的なアプローチよりも優れています。
また, ファインチューニングと組み合わせることで, 従来のファインチューニング手法よりも, 分布内および分布外の両方の性能を向上できることを示す。
関連論文リスト
- Finetuning CLIP to Reason about Pairwise Differences [52.028073305958074]
本稿では,CLIPのような視覚言語モデルの学習手法を提案する。
我々はまず,ある属性による画像のランク付け能力を大幅に向上させることを実証した。
また、得られる埋め込みは埋め込み空間においてより大きな幾何学的性質に従うことを示す。
論文 参考訳(メタデータ) (2024-09-15T13:02:14Z) - Improved Few-Shot Image Classification Through Multiple-Choice Questions [1.4432605069307167]
本稿では,少数のラベル付き例と複数選択質問のみを用いて,画像分類におけるVQA性能を向上させるための簡単な手法を提案する。
本手法は, 純視覚エンコーダとゼロショットVQAベースラインの両方で性能を向上し, 共通ショットタスクにおける印象的な性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T03:09:42Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - Attribute Propagation Network for Graph Zero-shot Learning [57.68486382473194]
属性伝達ネットワーク (APNet) を導入し, 1) クラス毎に属性ベクトルを生成するグラフ伝搬モデルと, 2) パラメータ化隣人 (NN) 分類器から構成する。
APNetは、2つのゼロショット学習設定と5つのベンチマークデータセットによる実験で、魅力的なパフォーマンスまたは新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-24T16:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。