論文の概要: LiT: Zero-Shot Transfer with Locked-image Text Tuning
- arxiv url: http://arxiv.org/abs/2111.07991v1
- Date: Mon, 15 Nov 2021 18:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 13:23:23.720157
- Title: LiT: Zero-Shot Transfer with Locked-image Text Tuning
- Title(参考訳): LiT: Locked-image Text Tuningによるゼロショット転送
- Authors: Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel
Keysers, Alexander Kolesnikov, Lucas Beyer
- Abstract要約: 『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
- 参考スコア(独自算出の注目度): 68.78877201319811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents contrastive-tuning, a simple method employing contrastive
training to align image and text models while still taking advantage of their
pre-training. In our empirical study we find that locked pre-trained image
models with unlocked text models work best. We call this instance of
contrastive-tuning "Locked-image Text tuning" (LiT-tuning), which just teaches
a text model to read out good representations from a pre-trained image model
for new tasks. A LiT-tuned model gains the capability of zero-shot transfer to
new vision tasks, such as image classification or retrieval. The proposed
LiT-tuning is widely applicable; it works reliably with multiple pre-training
methods (supervised and unsupervised) and across diverse architectures (ResNet,
Vision Transformers and MLP-Mixer) using three different image-text datasets.
With the transformer-based pre-trained ViT-g/14 model, the LiT-tuned model
achieves 84.5% zero-shot transfer accuracy on the ImageNet test set, and 81.1%
on the challenging out-of-distribution ObjectNet test set.
- Abstract(参考訳): 本稿では,画像モデルとテキストモデルの整合を,事前学習の利点を生かしながら,コントラストトレーニングを用いた簡易なコントラストチューニング手法を提案する。
実験的な研究で、アンロックされたテキストモデルによる予め訓練された画像モデルが最もうまくいくことがわかった。
これは、新しいタスクのために、事前学習された画像モデルから良い表現を読み出すようにテキストモデルに教えるだけである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
提案したLiTチューニングは,複数の事前トレーニング手法(教師付きおよび教師なし)と,3つの異なる画像テキストデータセットを使用したさまざまなアーキテクチャ(ResNet, Vision Transformer, MLP-Mixer)で確実に動作する。
トランスフォーマーベースのViT-g/14モデルでは、LiTで調整されたモデルは、ImageNetテストセットで84.5%のゼロショット転送精度、挑戦的な配布外ObjectNetテストセットで81.1%を達成する。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed
Image Retrieval [17.70430913227593]
本稿では,事前学習されたモデルと下流CIRタスクとのギャップを低減するために,未ラベルで事前学習したマスク付きチューニング手法を提案する。
このようなシンプルな設計で、きめ細かいテキスト誘導の修正を捉えることができる。
論文 参考訳(メタデータ) (2023-11-13T02:49:57Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Towards a Unified Foundation Model: Jointly Pre-Training Transformers on
Unpaired Images and Text [93.11954811297652]
我々は、モダリティ固有のトークン化器、共有トランスフォーマーエンコーダ、タスク固有の出力ヘッドからなる統一型トランスフォーマーを設計する。
我々は、個別に訓練されたBERTモデルとViTモデルを教師として採用し、知識蒸留を適用して、より正確な監視信号を提供する。
実験の結果、統合基盤変換器は視覚のみのタスクとテキストのみのタスクの両方で驚くほどうまく機能することがわかった。
論文 参考訳(メタデータ) (2021-12-14T00:20:55Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised
Image-Text Data [9.3935916515127]
画像-テキスト共同埋め込みのための視覚教師付き事前学習モデルである ImageBERT を導入する。
我々のモデルはTransformerベースのモデルであり、入力として異なるモダリティを取り、それらの関係をモデル化する。
論文 参考訳(メタデータ) (2020-01-22T11:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。