論文の概要: CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment
- arxiv url: http://arxiv.org/abs/2203.07190v1
- Date: Mon, 14 Mar 2022 15:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:09:53.995006
- Title: CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual
Entailment
- Title(参考訳): CLIPモデル:VQAとビジュアルエンターテイメントに関する実証的研究
- Authors: Haoyu Song, Li Dong, Wei-Nan Zhang, Ting Liu, Furu Wei
- Abstract要約: ここでは,CLIPが言語力を活用することで,強力な視覚言語学習者になり得ることを示す。
本稿では,vqaタスクにおける数ショット性能を向上させるために,パラメータ効率のよい微調整手法を提案する。
- 参考スコア(独自算出の注目度): 102.17010696898113
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: CLIP has shown a remarkable zero-shot capability on a wide range of vision
tasks. Previously, CLIP is only regarded as a powerful visual encoder. However,
after being pre-trained by language supervision from a large amount of
image-caption pairs, CLIP itself should also have acquired some few-shot
abilities for vision-language tasks. In this work, we empirically show that
CLIP can be a strong vision-language few-shot learner by leveraging the power
of language. We first evaluate CLIP's zero-shot performance on a typical visual
question answering task and demonstrate a zero-shot cross-modality transfer
capability of CLIP on the visual entailment task. Then we propose a
parameter-efficient fine-tuning strategy to boost the few-shot performance on
the vqa task. We achieve competitive zero/few-shot results on the visual
question answering and visual entailment tasks without introducing any
additional pre-training procedure.
- Abstract(参考訳): CLIPは、幅広いビジョンタスクで顕著なゼロショット機能を示している。
以前は、CLIPは強力なビジュアルエンコーダと見なされていた。
しかし、大量の画像キャプチャーペアから言語監督によって事前訓練された後、CLIP自体も視覚言語タスクのいくつかのショット機能を取得する必要がある。
本研究では,CLIPが言語力を活用することで,強力な視覚言語学習者となることを実証的に示す。
私たちはまず,典型的な視覚的質問応答タスクにおいてCLIPのゼロショット性能を評価し,視覚的指示タスクにおいてCLIPのゼロショットクロスモーダリティ伝達能力を示す。
次に,vqaタスクにおける最小ショット性能を向上させるためのパラメータ効率の良い微調整戦略を提案する。
追加の事前学習手順を導入することなく,視覚質問応答タスクと視覚関連タスクにおいて,競争力のあるゼロ/フェーショット結果を得る。
関連論文リスト
- Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation [17.443411731092567]
野生でVLN(Vision-and-Language Navigation)を実行する身体エージェントは、この多様性を処理できなければならない。
私たちは、CLIPのようなVision-Languageモデルでもゼロショット言語グラウンドが可能かどうか尋ねる。
論文 参考訳(メタデータ) (2022-11-30T00:38:54Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP model is an Efficient Continual Learner [26.835116431183625]
凍結したCLIPモデルでは、微調整をせずに驚くべき連続学習性能が得られる(ゼロショット評価)。
CLIPは、クラス増分、ドメイン増分、タスク非依存のインクリメンタルラーニングを含む5つの一般的なベンチマークで様々な設定で評価する。
論文 参考訳(メタデータ) (2022-10-06T17:59:15Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。