論文の概要: SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification
- arxiv url: http://arxiv.org/abs/2211.16191v1
- Date: Mon, 28 Nov 2022 14:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:24:24.833309
- Title: SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification
- Title(参考訳): sgva-clip: 画像分類のための視覚言語モデルのセマンティック誘導視覚適応
- Authors: Fang Peng, Xiaoshan Yang, Changsheng Xu
- Abstract要約: 本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
- 参考スコア(独自算出の注目度): 84.05253637260743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although significant progress has been made in few-shot learning, most of
existing few-shot learning methods require supervised pre-training on a large
amount of samples of base classes, which limits their generalization ability in
real world application. Recently, large-scale self-supervised vision-language
models (e.g., CLIP) have provided a new paradigm for transferable visual
representation learning. However, the pre-trained VLPs may neglect detailed
visual information that is difficult to describe by language sentences, but
important for learning an effective classifier in few-shot classification. To
address the above problem, we propose a new framework, named Semantic-guided
Visual Adapting (SgVA), which can effectively extend vision-language
pre-trained models to produce discriminative task-specific visual features by
comprehensively using a vision-specific contrastive loss, a cross-modal
contrastive loss, and an implicit knowledge distillation. The implicit
knowledge distillation is designed to transfer the fine-grained cross-modal
knowledge to guide the updating of the vision adapter. State-of-the-art results
on 13 datasets demonstrate that the adapted visual features can well complement
the cross-modal features to improve few-shot image classification.
- Abstract(参考訳): 少数ショット学習では大きな進歩があったが、既存の少数ショット学習法のほとんどは、実世界のアプリケーションにおける一般化能力を制限するために、大量のベースクラスのサンプルで事前学習を監督する必要がある。
近年、大規模な自己教師型視覚言語モデル(例えばCLIP)は、伝達可能な視覚表現学習のための新しいパラダイムを提供している。
しかしながら、事前訓練されたvlpは、言語文によって記述が難しいが、少ないショット分類で効果的な分類法を学ぶために重要である詳細な視覚情報を無視する可能性がある。
そこで本研究では,視覚固有のコントラスト損失,クロスモーダルコントラスト損失,暗黙の知識蒸留を包括的に利用することにより,視覚言語事前学習モデルを拡張し,識別的タスク特有の視覚特徴を創り出すための新しいフレームワークであるsemantic-guided visual adapting (sgva)を提案する。
暗黙的知識蒸留は、細粒度のクロスモーダル知識を視覚アダプターの更新を導くために設計されている。
13のデータセットに関する最先端の成果は、適応したビジュアル機能がクロスモーダル機能を補完し、少数ショットの画像分類を改善することを証明している。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [99.9389737339175]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。
ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。
実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文 参考訳(メタデータ) (2020-08-04T08:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。