Fugu-MT 論文翻訳(概要): SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification

論文の概要: SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification

arxiv url: http://arxiv.org/abs/2211.16191v1
Date: Mon, 28 Nov 2022 14:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-30 17:24:24.833309
Title: SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification
Title（参考訳）: sgva-clip: 画像分類のための視覚言語モデルのセマンティック誘導視覚適応
Authors: Fang Peng, Xiaoshan Yang, Changsheng Xu
Abstract要約: 本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
参考スコア（独自算出の注目度）: 84.05253637260743
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although significant progress has been made in few-shot learning, most of existing few-shot learning methods require supervised pre-training on a large amount of samples of base classes, which limits their generalization ability in real world application. Recently, large-scale self-supervised vision-language models (e.g., CLIP) have provided a new paradigm for transferable visual representation learning. However, the pre-trained VLPs may neglect detailed visual information that is difficult to describe by language sentences, but important for learning an effective classifier in few-shot classification. To address the above problem, we propose a new framework, named Semantic-guided Visual Adapting (SgVA), which can effectively extend vision-language pre-trained models to produce discriminative task-specific visual features by comprehensively using a vision-specific contrastive loss, a cross-modal contrastive loss, and an implicit knowledge distillation. The implicit knowledge distillation is designed to transfer the fine-grained cross-modal knowledge to guide the updating of the vision adapter. State-of-the-art results on 13 datasets demonstrate that the adapted visual features can well complement the cross-modal features to improve few-shot image classification.
Abstract（参考訳）: 少数ショット学習では大きな進歩があったが、既存の少数ショット学習法のほとんどは、実世界のアプリケーションにおける一般化能力を制限するために、大量のベースクラスのサンプルで事前学習を監督する必要がある。近年、大規模な自己教師型視覚言語モデル(例えばCLIP)は、伝達可能な視覚表現学習のための新しいパラダイムを提供している。しかしながら、事前訓練されたvlpは、言語文によって記述が難しいが、少ないショット分類で効果的な分類法を学ぶために重要である詳細な視覚情報を無視する可能性がある。そこで本研究では,視覚固有のコントラスト損失,クロスモーダルコントラスト損失,暗黙の知識蒸留を包括的に利用することにより,視覚言語事前学習モデルを拡張し,識別的タスク特有の視覚特徴を創り出すための新しいフレームワークであるsemantic-guided visual adapting (sgva)を提案する。暗黙的知識蒸留は、細粒度のクロスモーダル知識を視覚アダプターの更新を導くために設計されている。 13のデータセットに関する最先端の成果は、適応したビジュアル機能がクロスモーダル機能を補完し、少数ショットの画像分類を改善することを証明している。

関連論文リスト

Learning Visual Composition through Improved Semantic Guidance [19.24813992815684]
ラベル付けされたデータを大幅に改善することで、標準的なコントラスト学習手法の性能を大幅に改善できることを示す。本結果は,DOCCIから得られた比較的新しいキャプションベンチマークで紹介する。拡張されたデータでトレーニングされた標準的なCLIPモデルは、画像検索タスクにおいて印象的なパフォーマンスを示すかもしれない。
論文参考訳（メタデータ） (2024-12-19T20:58:26Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文参考訳（メタデータ） (2023-12-18T05:50:10Z)
What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。 GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文参考訳（メタデータ） (2023-05-20T16:11:26Z)
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。 DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文参考訳（メタデータ） (2022-10-28T23:00:40Z)
K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文参考訳（メタデータ） (2022-04-20T04:47:01Z)
A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文参考訳（メタデータ） (2021-11-29T17:49:24Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Learning Visual Representations with Caption Annotations [19.24013129952071]
本稿では,視覚的表現をイメージ・キャプション・ペア上で学習するプロキシ・タスクを提案する。 ICMLMは視覚的手がかりに頼って字幕中のマスキング語を予測する。実験の結果,画像キャプションを利用してグローバルな意味情報を視覚表現に注入できることが確認された。
論文参考訳（メタデータ） (2020-08-04T08:04:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。