論文の概要: Collaboration of Pre-trained Models Makes Better Few-shot Learner
- arxiv url: http://arxiv.org/abs/2209.12255v1
- Date: Sun, 25 Sep 2022 16:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:24:19.807995
- Title: Collaboration of Pre-trained Models Makes Better Few-shot Learner
- Title(参考訳): 事前学習モデルによる学習能力の向上
- Authors: Renrui Zhang, Hanqiu Deng, Bohao Li, Wei Zhang, Hao Dong, Hongsheng
Li, Peng Gao, Yu Qiao
- Abstract要約: 少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
- 参考スコア(独自算出の注目度): 49.89134194181042
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Few-shot classification requires deep neural networks to learn generalized
representations only from limited training images, which is challenging but
significant in low-data regimes. Recently, CLIP-based methods have shown
promising few-shot performance benefited from the contrastive language-image
pre-training. Based on this point, we question if the large-scale pre-training
can alleviate the few-shot data deficiency and also assist the representation
learning by the pre-learned knowledge. In this paper, we propose CoMo, a
Collaboration of pre-trained Models that incorporates diverse prior knowledge
from various pre-training paradigms for better few-shot learning. Our CoMo
includes: CLIP's language-contrastive knowledge, DINO's vision-contrastive
knowledge, and DALL-E's language-generative knowledge. Specifically, CoMo works
in two aspects: few-shot data expansion and diverse knowledge ensemble. For
one, we generate synthetic images via zero-shot DALL-E to enrich the few-shot
training data without any manpower. For the other, we introduce a learnable
Multi-Knowledge Adapter (MK-Adapter) to adaptively blend the predictions from
CLIP and DINO. By such collaboration, CoMo can fully unleash the potential of
different pre-training methods and unify them to perform state-of-the-art for
few-shot classification. We conduct extensive experiments on 11 datasets to
demonstrate the superiority and generalization ability of our approach.
- Abstract(参考訳): 少ないショット分類では、限られたトレーニングイメージのみから一般化された表現を学ぶためにディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
この点から, 大規模事前学習は, 少数のデータ不足を軽減し, 事前学習による表現学習を支援することができるか, 疑問を呈する。
本稿では,様々な事前学習パラダイムからの多様な事前知識を取り入れた,事前学習モデルのコラボレーションであるCoMoを提案する。
私たちのCoMoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの言語生成知識が含まれています。
特にCoMoは、少数ショットのデータ拡張と多様な知識アンサンブルという2つの側面で機能する。
例えば、ゼロショットのDALL-Eを用いて合成画像を生成し、数ショットのトレーニングデータをマンパワーなしで強化する。
もうひとつは、CLIPとDINOの予測を適応的にブレンドする学習可能なマルチ知識アダプタ(MK-Adapter)を提案する。
このようなコラボレーションによって、CoMoはさまざまな事前訓練手法の可能性を完全に解き放ち、数発の分類で最先端の処理を行うように統一することができる。
提案手法の優越性と一般化能力を示すために,11のデータセットについて広範な実験を行った。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong
Few-shot Learners [55.119101947682715]
CaFoは、様々な事前学習パラダイムの様々な事前知識を取り入れた、ファウンデーションのカスケードモデルである。
私たちのCaFoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの視覚生成知識、GPT-3の言語生成知識が含まれています。
論文 参考訳(メタデータ) (2023-03-03T18:58:16Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Contrastive Language-Image Pre-Training with Knowledge Graphs [33.211811772961234]
本稿では,CLIPモデルに意味情報を注入する知識ベース事前学習フレームワークであるKnowledge-CLIPを提案する。
我々のモデルは、視覚と言語の表現を高い品質で意味的に整合させ、シナリオやモダリティを越えて推論能力を高めることができる。
論文 参考訳(メタデータ) (2022-10-17T09:49:22Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Curriculum Meta-Learning for Few-shot Classification [1.5039745292757671]
本稿では,最新のメタ学習技術に適用可能なカリキュラム学習フレームワークの適応性を提案する。
数発の画像分類タスクにおけるMAMLアルゴリズムによる実験は,カリキュラムの学習フレームワークにおいて有意な効果を示した。
論文 参考訳(メタデータ) (2021-12-06T10:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。