論文の概要: Enhancing Vision-Language Few-Shot Adaptation with Negative Learning
- arxiv url: http://arxiv.org/abs/2403.12964v2
- Date: Fri, 08 Nov 2024 14:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:19.388718
- Title: Enhancing Vision-Language Few-Shot Adaptation with Negative Learning
- Title(参考訳): 負学習によるビジョンランゲージ・ファウショット適応の強化
- Authors: Ce Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie,
- Abstract要約: 我々は,タスク固有の知識をより効率的に活用するための,シンプルで効果的な否定的学習手法SimNLを提案する。
そこで本研究では,雑音を緩和するために,プラグアンドプレイによる数発のインスタンス再重み付け手法を提案する。
提案したSimNLは,少数ショット学習とドメイン一般化の両タスクにおいて,既存の最先端手法よりも優れていることを確認した。
- 参考スコア(独自算出の注目度): 11.545127156146368
- License:
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs) have exhibited impressive zero-shot performance and transferability, allowing them to adapt to downstream tasks in a data-efficient manner. However, when only a few labeled samples are available, adapting VLMs to distinguish subtle differences between similar classes in specific downstream tasks remains challenging. In this work, we propose a Simple yet effective Negative Learning approach, SimNL, to more efficiently exploit the task-specific knowledge from few-shot labeled samples. Unlike previous methods that focus on identifying a set of representative positive features defining "what is a {CLASS}", SimNL discovers a complementary set of negative features that define "what is not a {CLASS}", providing additional insights that supplement the positive features to enhance task-specific recognition capability. Further, we identify that current adaptation approaches are particularly vulnerable to potential noise in the few-shot sample set. To mitigate this issue, we introduce a plug-and-play few-shot instance reweighting technique to suppress noisy outliers and amplify clean samples for more stable adaptation. Our extensive experimental results across 15 datasets validate that the proposed SimNL outperforms existing state-of-the-art methods on both few-shot learning and domain generalization tasks while achieving competitive computational efficiency. Code is available at https://github.com/zhangce01/SimNL.
- Abstract(参考訳): 大規模な事前学習型ビジョン・ランゲージ・モデル(VLM)は、ゼロショット性能と転送性に優れており、データ効率のよい方法で下流タスクに適応することができる。
しかしながら、いくつかのラベル付きサンプルが利用可能である場合、特定の下流タスクにおける類似クラス間の微妙な違いを区別するためにVLMを適用することは依然として困難である。
そこで本研究では,少数のラベル付きサンプルからタスク固有の知識をより効率的に活用するための,シンプルで効果的な負の学習手法であるSimNLを提案する。
代表的肯定的特徴の集合を識別することに集中する従来の方法とは異なり、SimNL は "What is a {CLASS}" を定義する否定的特徴の相補的なセットを発見し、タスク固有の認識能力を高めるために肯定的特徴を補足する追加的な洞察を与える。
さらに,現在の適応手法は,数発のサンプルセットの潜在的なノイズに対して特に脆弱であることを確認した。
この問題を緩和するために,雑音の多い外乱を抑制し,より安定した適応のためにクリーンサンプルを増幅する,プラグアンドプレイ数発のインスタンス再重み付け手法を導入する。
提案したSimNLが、競合計算効率を達成しつつ、いくつかのショット学習とドメイン一般化タスクの両方において、既存の最先端の手法より優れていることを検証した。
コードはhttps://github.com/zhangce01/SimNLで入手できる。
関連論文リスト
- Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Dual-Adapter: Training-free Dual Adaptation for Few-shot Out-of-Distribution Detection [6.210614254974212]
本研究では,未確認カテゴリからのOODサンプルを推定時間中に検出することを目的とした,数発のアウト・オブ・ディストリビューション(OOD)検出の問題について検討する。
既存の手法は主にOOD検出のためのタスク認識プロンプトの訓練に重点を置いている。
テキストと視覚の両方の観点からOODサンプルを検出するための事前学習自由度適応法(Dual-Adapter)を提案する。
論文 参考訳(メタデータ) (2024-05-25T09:34:59Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。