論文の概要: Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong
Few-shot Learners
- arxiv url: http://arxiv.org/abs/2303.02151v1
- Date: Fri, 3 Mar 2023 18:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 13:45:20.600908
- Title: Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong
Few-shot Learners
- Title(参考訳): プロンプト、生成、キャッシュ: 基礎モデルのカスケードは、強力な少数ショット学習者を作る
- Authors: Renrui Zhang, Xiangfei Hu, Bohao Li, Siyuan Huang, Hanqiu Deng,
Hongsheng Li, Yu Qiao, Peng Gao
- Abstract要約: CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。
私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
- 参考スコア(独自算出の注目度): 55.119101947682715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual recognition in low-data regimes requires deep neural networks to learn
generalized representations from limited training samples. Recently, CLIP-based
methods have shown promising few-shot performance benefited from the
contrastive language-image pre-training. We then question, if the more diverse
pre-training knowledge can be cascaded to further assist few-shot
representation learning. In this paper, we propose CaFo, a Cascade of
Foundation models that incorporates diverse prior knowledge of various
pre-training paradigms for better few-shot learning. Our CaFo incorporates
CLIP's language-contrastive knowledge, DINO's vision-contrastive knowledge,
DALL-E's vision-generative knowledge, and GPT-3's language-generative
knowledge. Specifically, CaFo works by 'Prompt, Generate, then Cache'. Firstly,
we leverage GPT-3 to produce textual inputs for prompting CLIP with rich
downstream linguistic semantics. Then, we generate synthetic images via DALL-E
to expand the few-shot training data without any manpower. At last, we
introduce a learnable cache model to adaptively blend the predictions from CLIP
and DINO. By such collaboration, CaFo can fully unleash the potential of
different pre-training methods and unify them to perform state-of-the-art for
few-shot classification. Code is available at
https://github.com/ZrrSkywalker/CaFo.
- Abstract(参考訳): 低データ環境における視覚認識は、限られたトレーニングサンプルから一般化された表現を学ぶためにディープニューラルネットワークを必要とする。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
そして、より多様な事前学習の知識をカスケードして、数発の表現学習をさらに支援できるかを問う。
本稿では,様々な事前学習パラダイムの様々な事前知識を組み込んだ基礎モデルであるcafoを提案する。
私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
具体的には、CaFoは'Prompt, Generate, then Cache'で動作する。
まず、GPT-3を利用してテキスト入力を生成し、CLIPにリッチな下流言語意味論を与える。
そして、DALL-Eを介して合成画像を生成し、数発のトレーニングデータを拡張する。
最後に,CLIPとDINOの予測を適応的にブレンドする学習可能なキャッシュモデルを提案する。
このようなコラボレーションによって、CaFoは、さまざまな事前トレーニングメソッドの可能性を完全に解き放ち、数ショットの分類のために最先端の処理を実行するように統一することができる。
コードはhttps://github.com/ZrrSkywalker/CaFoで入手できる。
関連論文リスト
- Knowledge Adaptation Network for Few-Shot Class-Incremental Learning [23.90555521006653]
クラス増分学習(class-incremental learning)は、いくつかのサンプルを使用して、新しいクラスを段階的に認識することを目的としている。
この問題を解決する効果的な方法の1つは、原型進化分類器を構築することである。
新しいクラスの表現は弱で偏りがあるので、そのような戦略は準最適であると主張する。
論文 参考訳(メタデータ) (2024-09-18T07:51:38Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文 参考訳(メタデータ) (2022-09-25T16:23:12Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。