論文の概要: Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching
- arxiv url: http://arxiv.org/abs/2301.02903v1
- Date: Sat, 7 Jan 2023 17:24:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 16:04:57.686173
- Title: Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching
- Title(参考訳): クロスモーダル類似性マッチングを用いた事前学習型マルチモーダル表現の変換
- Authors: Byoungjip Kim, Sungik Choi, Dasol Hwang, Moontae Lee, Honglak Lee
- Abstract要約: 本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
- 参考スコア(独自算出の注目度): 49.730741713652435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite surprising performance on zero-shot transfer, pre-training a
large-scale multimodal model is often prohibitive as it requires a huge amount
of data and computing resources. In this paper, we propose a method (BeamCLIP)
that can effectively transfer the representations of a large pre-trained
multimodal model (CLIP-ViT) into a small target model (e.g., ResNet-18). For
unsupervised transfer, we introduce cross-modal similarity matching (CSM) that
enables a student model to learn the representations of a teacher model by
matching the relative similarity distribution across text prompt embeddings. To
better encode the text prompts, we design context-based prompt augmentation
(CPA) that can alleviate the lexical ambiguity of input text prompts. Our
experiments show that unsupervised representation transfer of a pre-trained
vision-language model enables a small ResNet-18 to achieve a better ImageNet-1K
top-1 linear probe accuracy (66.2%) than vision-only self-supervised learning
(SSL) methods (e.g., SimCLR: 51.8%, SwAV: 63.7%), while closing the gap with
supervised learning (69.8%).
- Abstract(参考訳): ゼロショット転送における驚くべきパフォーマンスにもかかわらず、大規模なマルチモーダルモデルの事前トレーニングは、大量のデータとコンピューティングリソースを必要とするため、しばしば禁止される。
本稿では,大規模な事前学習型マルチモーダルモデル(CLIP-ViT)の表現を小さなターゲットモデル(ResNet-18など)に効果的に転送する手法を提案する。
教師なしトランスファーには,教師モデルの表現をテキストプロンプト埋め込みの相対的類似度分布にマッチさせることで学習できるクロスモーダル類似度マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
本実験では,事前学習された視覚言語モデルの教師なし表現転送により,視覚のみ自己教師あり学習 (ssl) 法 (simclr: 51.8%, swav: 63.7%) よりも,imagenet-1k top-1線形プローブ精度 (66.2%) が向上し,教師あり学習 (69.8%) でギャップを縮められることを示した。
関連論文リスト
- ScaleKD: Strong Vision Transformers Could Be Excellent Teachers [15.446480934024652]
本稿では, 簡便かつ効果的な知識蒸留法であるScaleKDを提案する。
本手法は,画像分類データセット上で,さまざまな畳み込みニューラルネットワーク(CNN),多層パーセプトロン(MLP),ViTアーキテクチャにまたがる学生のバックボーンを訓練することができる。
教師モデルやその事前学習データセットのサイズをスケールアップする際,提案手法は所望のスケーラブルな特性を示す。
論文 参考訳(メタデータ) (2024-11-11T08:25:21Z) - Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot
Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。
実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-06-07T18:26:22Z) - Black Box Few-Shot Adaptation for Vision-Language models [41.49584259596654]
ヴィジュアル・ランゲージ(V-L)モデルは、視覚的・言語的モダリティを整合させるために、対照的な学習で訓練された。
本稿では,プリコンパイルされた画像とテキストの特徴に基づいて,V-L小ショット適応のためのブラックボックス手法について述べる。
対象領域におけるV-L再アライメントに対する単純な線形アプローチである線形特徴アライメント(LFA)を提案する。
論文 参考訳(メタデータ) (2023-04-04T12:42:29Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.78877201319811]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。
LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文 参考訳(メタデータ) (2021-11-15T18:53:48Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。