論文の概要: How Much Can CLIP Benefit Vision-and-Language Tasks?
- arxiv url: http://arxiv.org/abs/2107.06383v1
- Date: Tue, 13 Jul 2021 20:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:29:23.843397
- Title: How Much Can CLIP Benefit Vision-and-Language Tasks?
- Title(参考訳): CLIPはビジョンとランゲージのタスクにどの程度適しているのか?
- Authors: Sheng Shen, Liunian Harold Li, Hao Tan, Mohit Bansal, Anna Rohrbach,
Kai-Wei Chang, Zhewei Yao, Kurt Keutzer
- Abstract要約: CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
- 参考スコア(独自算出の注目度): 121.46042421728016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing Vision-and-Language (V&L) models rely on pre-trained visual
encoders, using a relatively small set of manually-annotated data (as compared
to web-crawled data), to perceive the visual world. However, it has been
observed that large-scale pretraining usually can result in better
generalization performance, e.g., CLIP (Contrastive Language-Image
Pre-training), trained on a massive amount of image-caption pairs, has shown a
strong zero-shot capability on various vision tasks. To further study the
advantage brought by CLIP, we propose to use CLIP as the visual encoder in
various V&L models in two typical scenarios: 1) plugging CLIP into
task-specific fine-tuning; 2) combining CLIP with V&L pre-training and
transferring to downstream tasks. We show that CLIP significantly outperforms
widely-used visual encoders trained with in-domain annotated data, such as
BottomUp-TopDown. We achieve competitive or better results on diverse V&L
tasks, while establishing new state-of-the-art results on Visual Question
Answering, Visual Entailment, and V&L Navigation tasks. We release our code at
https://github.com/clip-vil/CLIP-ViL.
- Abstract(参考訳): 既存のVision-and-Language (V&L) モデルは、視覚世界を知覚するために、手動で注釈付けされた(Webcrawledデータと比較して)比較的小さなデータセットを使用して、事前訓練されたビジュアルエンコーダに依存している。
しかし、大規模な事前訓練は通常、CLIP(Contrastive Language- Image Pre-training)のような、大量の画像キャプチャペアに基づいて訓練された、様々な視覚タスクにおいて強力なゼロショット能力を示すような、より優れた一般化性能をもたらすことが観察されている。
CLIPをタスク固有の微調整にプラグインすること、CLIPとV&L事前学習と下流タスクへの転送の2つの典型的なシナリオにおいて、CLIPを様々なV&Lモデルにおけるビジュアルエンコーダとして使用することを提案する。
CLIPは、BottomUp-TopDownのようなドメイン内のアノテーション付きデータで訓練された広範に使われているビジュアルエンコーダよりも優れていることを示す。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
コードをhttps://github.com/clip-vil/CLIP-ViLでリリースします。
関連論文リスト
- VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video
Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。
VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。
本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-08-22T14:58:36Z) - APPLeNet: Visual Attention Parameterized Prompt Learning for Few-Shot
Remote Sensing Image Generalization using CLIP [12.73827827842155]
視覚注意条件付きPrompts Learning Network (APPLeNet) と呼ばれる新しい画像条件付きプロンプト学習戦略を提案する。
APPLeNetは、RSシーン分類におけるマルチスケールな特徴学習の重要性を強調し、ドメイン一般化タスクのための視覚スタイルとコンテンツプリミティブを歪めている。
我々の結果は、関連する文献やコードより一貫して優れており、https://github.com/mainaksingha01/APPLeNet.comで利用可能です。
論文 参考訳(メタデータ) (2023-04-12T17:20:37Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language
Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。
提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。
MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文 参考訳(メタデータ) (2022-09-14T05:47:02Z) - CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment [102.17010696898113]
ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:29:27Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。