論文の概要: Pre-Trained Vision-Language Models as Partial Annotators
- arxiv url: http://arxiv.org/abs/2406.18550v1
- Date: Thu, 23 May 2024 17:17:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 06:12:00.585287
- Title: Pre-Trained Vision-Language Models as Partial Annotators
- Title(参考訳): 部分アノテーションとしての事前学習型ビジョンランゲージモデル
- Authors: Qian-Wei Wang, Yuqiu Xie, Letian Zhang, Zimo Liu, Shu-Tao Xia,
- Abstract要約: 事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
- 参考スコア(独自算出の注目度): 40.89255396643592
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pre-trained vision-language models learn massive data to model unified representations of images and natural languages, which can be widely applied to downstream machine learning tasks. In addition to zero-shot inference, in order to better adapt pre-trained models to the requirements of downstream tasks, people usually use methods such as few-shot or parameter-efficient fine-tuning and knowledge distillation. However, annotating samples is laborious, while a large number of unlabeled samples can be easily obtained. In this paper, we investigate a novel "pre-trained annotating - weakly-supervised learning" paradigm for pre-trained model application and experiment on image classification tasks. Specifically, based on CLIP, we annotate image samples with multiple prompt templates to obtain multiple candidate labels to form the noisy partial label dataset, and design a collaborative consistency regularization algorithm to solve this problem. Our method simultaneously trains two neural networks, which collaboratively purify training labels for each other and obtain pseudo-labels for self-training, while adopting prototypical similarity alignment and noisy supervised contrastive learning to optimize model representation. In experiments, our method achieves performances far beyond zero-shot inference without introducing additional label information, and outperforms other weakly supervised learning and few-shot fine-tuning methods, and obtains smaller deployed models. Our code is available at: \url{https://anonymous.4open.science/r/Co-Reg-8CF9}.
- Abstract(参考訳): 事前学習された視覚言語モデルは、大量のデータを学習し、画像と自然言語の統一表現をモデル化し、下流の機械学習タスクに広く適用することができる。
ゼロショット推論に加えて、訓練済みのモデルを下流タスクの要求に適応させるために、人々は通常、少数ショットやパラメータ効率の良い微調整や知識蒸留といった手法を使う。
しかし、注釈付きサンプルは困難であり、多数の未ラベルサンプルが容易に取得できる。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
具体的には、CLIPに基づいて、複数のプロンプトテンプレートで画像サンプルにアノテートして、複数の候補ラベルを取得し、ノイズのある部分ラベルデータセットを作成し、この問題を解決するために協調一貫性正規化アルゴリズムを設計する。
提案手法は2つのニューラルネットワークを同時にトレーニングし,互いに協調的にラベルを浄化し,自己学習のための擬似ラベルを得る。
実験では,ラベル情報を導入することなく,ゼロショット推論をはるかに超越した性能を実現し,弱い教師付き学習や少数ショットの微調整手法よりも優れ,より小さな展開モデルが得られる。
我々のコードは以下の通りである。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Asymmetric Co-teaching with Multi-view Consensus for Noisy Label
Learning [15.690502285538411]
Asymmetric Co-Teaching (AsyCo) というノイズラベル学習手法を導入する。
AsyCoは、共学モデルのより一貫性のある分岐結果を生成する。
合成および実世界のノイズラベルデータセットの実験は、AsyCoが現在のSOTA法よりも改善していることを示している。
論文 参考訳(メタデータ) (2023-01-01T04:10:03Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。
負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-09-14T03:06:23Z) - CSI: Novelty Detection via Contrastive Learning on Distributionally
Shifted Instances [77.28192419848901]
コントラストシフトインスタンス (CSI) という,単純かつ効果的な手法を提案する。
従来のコントラスト学習法のように,サンプルを他の例と対比することに加えて,本トレーニング手法では,サンプルを分散シフトによる拡張と対比する。
本実験は, 種々の新規検出シナリオにおける本手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-07-16T08:32:56Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。