論文の概要: What does a platypus look like? Generating customized prompts for
zero-shot image classification
- arxiv url: http://arxiv.org/abs/2209.03320v1
- Date: Wed, 7 Sep 2022 17:27:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:14:46.890357
- Title: What does a platypus look like? Generating customized prompts for
zero-shot image classification
- Title(参考訳): platypusってどんな感じ?
ゼロショット画像分類のためのカスタマイズプロンプトの生成
- Authors: Sarah Pratt, Rosanne Liu, Ali Farhadi
- Abstract要約: 本研究は,画像領域の明示的な知識を使わずに,高精度なプロンプトを生成する簡単な手法を提案する。
大規模言語モデル(LLM)に含まれる知識を活用し、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
- 参考スコア(独自算出の注目度): 47.827973529198275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open vocabulary models are a promising new paradigm for image classification.
Unlike traditional classification models, open vocabulary models classify among
any arbitrary set of categories specified with natural language during
inference. This natural language, called "prompts", typically consists of a set
of hand-written templates (e.g., "a photo of a {}") which are completed with
each of the category names. This work introduces a simple method to generate
higher accuracy prompts, without using explicit knowledge of the image domain
and with far fewer hand-constructed sentences. To achieve this, we combine open
vocabulary models with large language models (LLMs) to create Customized
Prompts via Language models (CuPL, pronounced "couple"). In particular, we
leverage the knowledge contained in LLMs in order to generate many descriptive
sentences that are customized for each object category. We find that this
straightforward and general approach improves accuracy on a range of zero-shot
image classification benchmarks, including over one percentage point gain on
ImageNet. Finally, this method requires no additional training and remains
completely zero-shot. Code is available at https://github.com/sarahpratt/CuPL.
- Abstract(参考訳): オープン語彙モデルは画像分類の新しいパラダイムとして有望である。
従来の分類モデルとは異なり、オープン語彙モデルは推論中に自然言語で指定された任意のカテゴリの集合を分類する。
この自然言語は "prompts" と呼ばれ、典型的には手書きのテンプレート(例えば "a photo of a {}")で構成されており、それぞれのカテゴリ名で完結している。
本研究は,画像領域の明示的な知識を使わずに,より高精度なプロンプトを生成するための簡易な手法を提案する。
これを実現するために、オープン語彙モデルと大きな言語モデル(LLM)を組み合わせて、言語モデル(CuPL)によるカスタマイズプロンプトを作成する。
特に、LLMに含まれる知識を活用して、各オブジェクトカテゴリにカスタマイズされた多くの記述文を生成する。
この単純で一般的なアプローチは、画像ネットの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を向上させる。
最後に、この方法は追加の訓練を必要とせず、完全にゼロショットのままである。
コードはhttps://github.com/sarahpratt/cuplで入手できる。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Freestyle Layout-to-Image Synthesis [42.64485133926378]
この研究では、モデルの自由なスタイルの能力、すなわち、与えられたレイアウト上に見知らぬセマンティクスをどの程度生成できるかを探索する。
これに触発されて、我々は、大規模事前訓練されたテキスト-画像拡散モデルを利用して、目に見えないセマンティクスを生成することを選んだ。
提案した拡散ネットワークは,テキスト入力を多用したリアルかつ自由なレイアウト・ツー・イメージ生成結果を生成する。
論文 参考訳(メタデータ) (2023-03-25T09:37:41Z) - Text2Model: Text-based Model Induction for Zero-shot Image Classification [38.704831945753284]
テキスト記述のみを用いてタスクに依存しない分類器を構築するという課題に対処する。
クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを用いてゼロショット分類器を生成する。
本手法は,画像,ポイントクラウド,行動認識など,一連のゼロショット分類タスクにおいて,テキスト記述の範囲を用いて評価する。
論文 参考訳(メタデータ) (2022-10-27T05:19:55Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - Revisiting Pose-Normalization for Fine-Grained Few-Shot Recognition [46.15360203412185]
わずかながらきめ細かな分類は、異なるクラス間の微妙できめ細かな区別を学習するモデルを必要とする。
解決策は、ポーズ正規化表現を使用することである。
本研究は,数発のきめ細粒度分類において極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-04-01T21:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。