論文の概要: Large Language Models are Good Prompt Learners for Low-Shot Image
Classification
- arxiv url: http://arxiv.org/abs/2312.04076v1
- Date: Thu, 7 Dec 2023 06:43:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 15:51:47.557836
- Title: Large Language Models are Good Prompt Learners for Low-Shot Image
Classification
- Title(参考訳): 大規模言語モデルは低ショット画像分類のための即興学習者である
- Authors: Zhaoheng Zheng, Jingmin Wei, Xuefeng Hu, Haidong Zhu, Ram Nevatia
- Abstract要約: 本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
- 参考スコア(独自算出の注目度): 12.93177760629652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-shot image classification, where training images are limited or
inaccessible, has benefited from recent progress on pre-trained vision-language
(VL) models with strong generalizability, e.g. CLIP. Prompt learning methods
built with VL models generate text features from the class names that only have
confined class-specific information. Large Language Models (LLMs), with their
vast encyclopedic knowledge, emerge as the complement. Thus, in this paper, we
discuss the integration of LLMs to enhance pre-trained VL models, specifically
on low-shot classification. However, the domain gap between language and vision
blocks the direct application of LLMs. Thus, we propose LLaMP, Large Language
Models as Prompt learners, that produces adaptive prompts for the CLIP text
encoder, establishing it as the connecting bridge. Experiments show that,
compared with other state-of-the-art prompt learning methods, LLaMP yields
better performance on both zero-shot generalization and few-shot image
classification, over a spectrum of 11 datasets.
- Abstract(参考訳): 訓練画像が限定的またはアクセス不能なローショット画像分類は、例えばCLIPのような強力な一般化性を持つ事前訓練された視覚言語(VL)モデルの最近の進歩の恩恵を受けている。
VLモデルで構築されたプロンプト学習手法は、クラス固有の情報しか持たないクラス名からテキスト特徴を生成する。
膨大な百科事典的な知識を持つ大言語モデル(llm)が補体として現れる。
そこで本稿では,LLMの統合による事前学習型VLモデルの強化,特にローショット分類について論じる。
しかし、言語と視覚の間のドメインギャップはLLMの直接適用を妨げている。
そこで我々は,LLaMP(Large Language Models as Prompt Learningers)を提案し,CLIPテキストエンコーダの適応的なプロンプトを生成し,接続ブリッジとして確立した。
実験により、LLaMPは他の最先端の素早い学習手法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方において、11のデータセットのスペクトルよりも優れた性能が得られることが示された。
関連論文リスト
- Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。
別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。
そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-01-04T18:59:49Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。