論文の概要: Prefix Conditioning Unifies Language and Label Supervision
- arxiv url: http://arxiv.org/abs/2206.01125v1
- Date: Thu, 2 Jun 2022 16:12:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:34:18.549160
- Title: Prefix Conditioning Unifies Language and Label Supervision
- Title(参考訳): プレフィックス条件付言語とラベルスーパービジョン
- Authors: Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee,
Kate Saenko, Tomas Pfister
- Abstract要約: 視覚言語によるコントラスト学習は,大量の画像キャプションペアデータを活用することによって,新たな学習パラダイムを提案する。
近年の研究では、クラスラベルをプロンプトと呼ばれる事前定義されたテンプレートで文に変換する方法が提案されている。
プレフィックストークンを用いて,これらの2種類の監督を統一する,シンプルかつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 84.11127588805138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language contrastive learning suggests a new learning paradigm by
leveraging a large amount of image-caption-pair data. The caption supervision
excels at providing wide coverage in vocabulary that enables strong zero-shot
image recognition performance. On the other hand, label supervision offers to
learn more targeted visual representations that are label-oriented and can
cover rare categories. To gain the complementary advantages of both kinds of
supervision for contrastive image-caption pre-training, recent works have
proposed to convert class labels into a sentence with pre-defined templates
called prompts. However, a naive unification of the real caption and the prompt
sentences could lead to a complication in learning, as the distribution shift
in text may not be handled properly in the language encoder. In this work, we
propose a simple yet effective approach to unify these two types of supervision
using prefix tokens that inform a language encoder of the type of the input
sentence (e.g., caption or prompt) at training time. Our method is generic and
can be easily integrated into existing VL pre-training objectives such as CLIP
or UniCL. In experiments, we show that this simple technique dramatically
improves the performance in zero-shot image recognition accuracy of the
pre-trained model.
- Abstract(参考訳): 視覚言語によるコントラスト学習は,大量の画像キャプションペアデータを活用することによって,新たな学習パラダイムを提案する。
キャプション監督は、強力なゼロショット画像認識性能を実現する語彙の広範なカバレッジを提供する。
一方、ラベル管理は、ラベル指向で稀なカテゴリをカバーできる、よりターゲット的な視覚表現を学習する。
コントラストイメージキャプチャ事前学習における2種類の監督の相補的利点を得るために,最近,クラスラベルをプロンプトと呼ばれる予め定義されたテンプレートで文に変換する手法が提案されている。
しかし、実際のキャプションとプロンプト文の単純な統一は、言語エンコーダでテキストの分配シフトを適切に処理できないため、学習の複雑化につながる可能性がある。
本研究では,入力文の種類(例:キャプションまたはプロンプト)を学習時に言語エンコーダに通知する接頭辞トークンを用いて,これらの2種類の指導をシンプルかつ効果的に統一する手法を提案する。
提案手法は汎用的であり,CLIPやUniCLなどの既存のVL事前学習目標に容易に統合できる。
実験では,この簡易な手法により,事前学習したモデルのゼロショット画像認識精度が劇的に向上することを示す。
関連論文リスト
- ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Zero-Shot Text-to-Image Generation [15.135825501365007]
テキストと画像トークンを単一のデータストリームとして自動回帰モデル化する変換器について述べる。
十分なデータとスケールで、ゼロショットで評価した場合、従来のドメイン固有モデルと競合するアプローチです。
論文 参考訳(メタデータ) (2021-02-24T06:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。