Fugu-MT 論文翻訳(概要): Pre-Trained Vision-Language Models as Partial Annotators

論文の概要: Pre-Trained Vision-Language Models as Partial Annotators

arxiv url: http://arxiv.org/abs/2406.18550v1
Date: Thu, 23 May 2024 17:17:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 06:12:00.585287
Title: Pre-Trained Vision-Language Models as Partial Annotators
Title（参考訳）: 部分アノテーションとしての事前学習型ビジョンランゲージモデル
Authors: Qian-Wei Wang, Yuqiu Xie, Letian Zhang, Zimo Liu, Shu-Tao Xia,
Abstract要約: 事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
参考スコア（独自算出の注目度）: 40.89255396643592
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pre-trained vision-language models learn massive data to model unified representations of images and natural languages, which can be widely applied to downstream machine learning tasks. In addition to zero-shot inference, in order to better adapt pre-trained models to the requirements of downstream tasks, people usually use methods such as few-shot or parameter-efficient fine-tuning and knowledge distillation. However, annotating samples is laborious, while a large number of unlabeled samples can be easily obtained. In this paper, we investigate a novel "pre-trained annotating - weakly-supervised learning" paradigm for pre-trained model application and experiment on image classification tasks. Specifically, based on CLIP, we annotate image samples with multiple prompt templates to obtain multiple candidate labels to form the noisy partial label dataset, and design a collaborative consistency regularization algorithm to solve this problem. Our method simultaneously trains two neural networks, which collaboratively purify training labels for each other and obtain pseudo-labels for self-training, while adopting prototypical similarity alignment and noisy supervised contrastive learning to optimize model representation. In experiments, our method achieves performances far beyond zero-shot inference without introducing additional label information, and outperforms other weakly supervised learning and few-shot fine-tuning methods, and obtains smaller deployed models. Our code is available at: \url{https://anonymous.4open.science/r/Co-Reg-8CF9}.
Abstract（参考訳）: 事前学習された視覚言語モデルは、大量のデータを学習し、画像と自然言語の統一表現をモデル化し、下流の機械学習タスクに広く適用することができる。ゼロショット推論に加えて、訓練済みのモデルを下流タスクの要求に適応させるために、人々は通常、少数ショットやパラメータ効率の良い微調整や知識蒸留といった手法を使う。しかし、注釈付きサンプルは困難であり、多数の未ラベルサンプルが容易に取得できる。本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。具体的には、CLIPに基づいて、複数のプロンプトテンプレートで画像サンプルにアノテートして、複数の候補ラベルを取得し、ノイズのある部分ラベルデータセットを作成し、この問題を解決するために協調一貫性正規化アルゴリズムを設計する。提案手法は2つのニューラルネットワークを同時にトレーニングし,互いに協調的にラベルを浄化し,自己学習のための擬似ラベルを得る。実験では,ラベル情報を導入することなく,ゼロショット推論をはるかに超越した性能を実現し,弱い教師付き学習や少数ショットの微調整手法よりも優れ,より小さな展開モデルが得られる。我々のコードは以下の通りである。

関連論文リスト

Pre-trained Vision-Language Models Assisted Noisy Partial Label Learning [40.89255396643592]
本稿では、事前学習された視覚言語モデル(VLM)で注釈付けされた雑音のある部分ラベルからの学習に焦点を当てる。本稿では,事前学習したモデルから発生する雑音に対処するために,革新的な協調整合正則化(Co-Reg)手法を提案する。提案手法は,手動でアノテートされた有効なラベルを使用すれば,その性能をさらに向上させることができる。
論文参考訳（メタデータ） (2025-06-03T12:48:54Z)
Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation [1.3157419797035321]
本稿では,既存情報の利用を最大化する観点から,新しいサンプルインスタンス分割法を提案する。まず、ラベルのないデータを学習して擬似ラベルを生成し、利用可能なサンプルの数を増やすことで、モデルが完全に活用するのに役立つ。第二に、テキストと画像の特徴を統合することにより、より正確な分類結果を得ることができる。
論文参考訳（メタデータ） (2024-10-21T14:44:08Z)
Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models [55.2480439325792]
そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-08-06T20:19:06Z)
Asymmetric Co-teaching with Multi-view Consensus for Noisy Label Learning [15.690502285538411]
Asymmetric Co-Teaching (AsyCo) というノイズラベル学習手法を導入する。 AsyCoは、共学モデルのより一貫性のある分岐結果を生成する。合成および実世界のノイズラベルデータセットの実験は、AsyCoが現在のSOTA法よりも改善していることを示している。
論文参考訳（メタデータ） (2023-01-01T04:10:03Z)
Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文参考訳（メタデータ） (2021-09-15T22:46:19Z)
Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文参考訳（メタデータ） (2021-05-22T05:55:16Z)
Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。プレトレーニング自体が多様性の優れた源であることが示される。本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-14T07:59:00Z)
One-bit Supervision for Image Classification [121.87598671087494]
1ビットの監視は、不完全なアノテーションから学ぶための新しい設定である。負ラベル抑圧を既成の半教師付き学習アルゴリズムに組み込んだ多段階学習パラダイムを提案する。
論文参考訳（メタデータ） (2020-09-14T03:06:23Z)
CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances [77.28192419848901]
コントラストシフトインスタンス (CSI) という,単純かつ効果的な手法を提案する。従来のコントラスト学習法のように,サンプルを他の例と対比することに加えて,本トレーニング手法では,サンプルを分散シフトによる拡張と対比する。本実験は, 種々の新規検出シナリオにおける本手法の優位性を実証する。
論文参考訳（メタデータ） (2020-07-16T08:32:56Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。