論文の概要: Prefix Conditioning Unifies Language and Label Supervision
- arxiv url: http://arxiv.org/abs/2206.01125v2
- Date: Mon, 15 May 2023 18:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 20:05:24.680921
- Title: Prefix Conditioning Unifies Language and Label Supervision
- Title(参考訳): プレフィックス条件付言語とラベルスーパービジョン
- Authors: Kuniaki Saito, Kihyuk Sohn, Xiang Zhang, Chun-Liang Li, Chen-Yu Lee,
Kate Saenko, Tomas Pfister
- Abstract要約: 学習した表現の一般化性を低減することにより,データセットのバイアスが事前学習に悪影響を及ぼすことを示す。
実験では、この単純な手法により、ゼロショット画像認識精度が向上し、画像レベルの分布シフトに対するロバスト性が向上することを示した。
- 参考スコア(独自算出の注目度): 84.11127588805138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-classification datasets have been used to pretrain image recognition
models. Recently, web-scale image-caption datasets have emerged as a source of
powerful pretraining alternative. Image-caption datasets are more
``open-domain'', containing a wider variety of scene types and vocabulary words
than traditional classification datasets, and models trained on these datasets
have demonstrated strong performance on few- and zero-shot recognition tasks.
When naively unifying image-classification and -caption dataset, we show that
such dataset biases negatively affect pre-training by reducing the
generalizability of learned representations and thus jeopardizing zero-shot
performance since the unification can tailor the model for the classification
dataset, making it vulnerable to the distribution shift from the dataset. In
this work, we address the problem by disentangling the dataset bias using
prefix tokens that inform a language encoder of the type of the input dataset
(e.g., image-classification or caption) at training time. This approach allows
the language encoder to share the knowledge from two datasets as well as switch
the mode of feature extraction, i.e., image-classification dataset or
image-caption dataset tailored mode, where we use image-caption mode in the
zero-shot evaluation. Our method is generic and can be easily integrated into
existing VL pre-training objectives such as CLIP or UniCL. In experiments, we
show that this simple technique improves the performance in zero-shot image
recognition accuracy and robustness to the image-level distribution shift.
- Abstract(参考訳): 画像分類データセットは、画像認識モデルの事前学習に使用されている。
最近、Webスケールの画像キャプチャデータセットが、強力な事前学習の代替として登場した。
イメージキャプチャデータセットは、従来の分類データセットよりも広い範囲のシーンタイプと語彙を含む‘オープンドメイン’であり、これらのデータセットでトレーニングされたモデルは、少数およびゼロショット認識タスクで強力なパフォーマンスを示している。
画像分類とカプセル化データセットを鼻で統一すると、これらのデータセットバイアスが学習された表現の一般化可能性を減らすことによって事前学習に悪影響を及ぼし、したがって、分類データセットのモデルをカスタマイズできるため、ゼロショット性能を損なうことが示され、データセットからの分布シフトに弱い。
本研究では,入力データセットの型(画像分類やキャプションなど)を学習時に言語エンコーダに通知するプレフィックストークンを用いて,データセットバイアスを解消することでこの問題に対処する。
このアプローチにより、言語エンコーダは2つのデータセットからの知識を共有し、特徴抽出モード、すなわち、ゼロショット評価でイメージキャプチャモードを使用する、イメージ分類データセットまたはイメージキャプチャデータセットカスタマイズモードを切り替えることができる。
提案手法は汎用的であり,CLIPやUniCLなどの既存のVL事前学習目標に容易に統合できる。
実験では、この簡易な手法により、ゼロショット画像認識精度と画像レベルの分布シフトに対するロバスト性が向上することを示す。
関連論文リスト
- ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Zero-Shot Text-to-Image Generation [15.135825501365007]
テキストと画像トークンを単一のデータストリームとして自動回帰モデル化する変換器について述べる。
十分なデータとスケールで、ゼロショットで評価した場合、従来のドメイン固有モデルと競合するアプローチです。
論文 参考訳(メタデータ) (2021-02-24T06:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。