論文の概要: Three Towers: Flexible Contrastive Learning with Pretrained Image Models
- arxiv url: http://arxiv.org/abs/2305.16999v3
- Date: Mon, 30 Oct 2023 15:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 02:16:14.119486
- Title: Three Towers: Flexible Contrastive Learning with Pretrained Image Models
- Title(参考訳): 3つのタワー:事前学習によるフレキシブルコントラスト学習
- Authors: Jannik Kossen, Mark Collier, Basil Mustafa, Xiao Wang, Xiaohua Zhai,
Lucas Beyer, Andreas Steiner, Jesse Berent, Rodolphe Jenatton, Efi
Kokiopoulou
- Abstract要約: Three Towers (3T) は、事前訓練された画像分類器を組み込むことで、視覚言語モデルのコントラスト学習を改善するフレキシブルな方法である。
検索タスクにおいて,3T は LiT と CLIP スタイルの from-scratch ベースラインよりも一貫して改善されていることを示す。
分類において、3Tはオフスクラッチベースラインよりも確実に改善され、JFTで事前訓練されたモデルではLiTと比較して性能は劣るが、ImageNet-21kとPlaces365の事前訓練ではLiTより優れている。
- 参考スコア(独自算出の注目度): 52.64612292491936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Three Towers (3T), a flexible method to improve the contrastive
learning of vision-language models by incorporating pretrained image
classifiers. While contrastive models are usually trained from scratch, LiT
(Zhai et al., 2022) has recently shown performance gains from using pretrained
classifier embeddings. However, LiT directly replaces the image tower with the
frozen embeddings, excluding any potential benefits from training the image
tower contrastively. With 3T, we propose a more flexible strategy that allows
the image tower to benefit from both pretrained embeddings and contrastive
training. To achieve this, we introduce a third tower that contains the frozen
pretrained embeddings, and we encourage alignment between this third tower and
the main image-text towers. Empirically, 3T consistently improves over LiT and
the CLIP-style from-scratch baseline for retrieval tasks. For classification,
3T reliably improves over the from-scratch baseline, and while it underperforms
relative to LiT for JFT-pretrained models, it outperforms LiT for ImageNet-21k
and Places365 pretraining.
- Abstract(参考訳): 本稿では,視覚言語モデルのコントラスト学習を改善するためのフレキシブルな手法である3つのタワー(3t)を提案する。
対照的なモデルは通常、ゼロからトレーニングされるが、LiT (Zhai et al., 2022) は、最近、事前訓練された分類器の埋め込みによる性能向上を示している。
しかし、ライトはイメージタワーを凍結した埋め込みに置き換え、イメージタワーを対照的に訓練することの利点を除いた。
3tでは,事前学習された組込みとコントラストトレーニングの両方の恩恵を受ける,より柔軟なストラテジーを提案する。
これを実現するため,凍結した既設埋設塔を含む第3の塔を導入し,この第3の塔と主画像テキスト塔との整合を奨励する。
経験的に、3TはLiTとCLIPスタイルの検索タスクのベースラインを一貫して改善する。
分類において、3Tはオフスクラッチベースラインよりも確実に改善され、JFT事前トレーニングモデルではLiTと比較して性能が劣るが、ImageNet-21kとPlaces365事前トレーニングではLiTより優れている。
関連論文リスト
- MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - Exploiting Unlabelled Photos for Stronger Fine-Grained SBIR [103.51937218213774]
本稿では,先行技術の11%をオーバーシュートする強力なベースラインを提示することにより,微細なスケッチベース画像検索(FG-SBIR)の文献化を推し進める。
本稿では,写真/スケッチインスタンス間の分離を明示的に実施する標準的な三重項損失の簡単な修正を提案する。
i) スケッチ間でのモダル内トリプルトロスを利用して、同じインスタンスのスケッチを他のインスタンスに近づけます。
論文 参考訳(メタデータ) (2023-03-24T03:34:33Z) - Generative Image Inpainting with Segmentation Confusion Adversarial
Training and Contrastive Learning [14.358417509144523]
本稿では,画像インパインティングのための新しい対角的学習フレームワークについて述べる。
SCATは、画素レベルの局所的なトレーニング信号を提供する、インペイントジェネレータとセグメンテーションネットワークの間の対角ゲームを行う。
2つのベンチマークデータセットに対して広範な実験を行い、質的かつ定量的にモデルの有効性と優越性を実証した。
論文 参考訳(メタデータ) (2023-03-23T09:34:17Z) - P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with
Point-to-Pixel Prompting [94.11915008006483]
本稿では,ポイントクラウド解析のための新しいポイント・ツー・Pixelを提案する。
ScanObjectNNの最も難しい設定では,89.3%の精度が得られる。
また,本フレームワークは,ModelNet分類とShapeNet Part Codeで非常に競争力のある性能を示す。
論文 参考訳(メタデータ) (2022-08-04T17:59:03Z) - LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.78877201319811]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文 参考訳(メタデータ) (2021-11-15T18:53:48Z) - How to train your ViT? Data, Augmentation, and Regularization in Vision
Transformers [74.06040005144382]
ビジョントランスフォーマー(ViT)は、幅広いビジョンアプリケーションにおいて高い競争力を発揮することが示されている。
我々は,トレーニングデータの量,AugReg,モデルサイズ,計算予算の相互作用をよりよく理解するために,体系的な実証的研究を行う。
私たちは、パブリックなImageNet-21kデータセットでさまざまなサイズのViTモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-06-18T17:58:20Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。