論文の概要: CLIP-Lite: Information Efficient Visual Representation Learning from
Textual Annotations
- arxiv url: http://arxiv.org/abs/2112.07133v1
- Date: Tue, 14 Dec 2021 03:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 04:51:35.020566
- Title: CLIP-Lite: Information Efficient Visual Representation Learning from
Textual Annotations
- Title(参考訳): CLIP-Lite: テキストアノテーションによる情報効率の良い視覚表現学習
- Authors: Aman Shrivastava, Ramprasaath R. Selvaraju, Nikhil Naik, Vicente
Ordonez
- Abstract要約: テキストアノテーションと特徴アライメントによる視覚表現学習のための情報効率向上手法であるCLIP-Liteを提案する。
以前提案されたCLIPモデルと比較して、CLIP-Liteは正のイメージテキストサンプル毎に1つの負のイメージテキストサンプルペアしか必要としない。
CLIP-Liteは言語セマンティクスを利用して、下流タスクで使用できるバイアスのない視覚表現を促進することができる。
- 参考スコア(独自算出の注目度): 18.50718702243241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose CLIP-Lite, an information efficient method for visual
representation learning by feature alignment with textual annotations. Compared
to the previously proposed CLIP model, CLIP-Lite requires only one negative
image-text sample pair for every positive image-text sample during the
optimization of its contrastive learning objective. We accomplish this by
taking advantage of an information efficient lower-bound to maximize the mutual
information between the two input modalities. This allows CLIP-Lite to be
trained with significantly reduced amounts of data and batch sizes while
obtaining better performance than CLIP. We evaluate CLIP-Lite by pretraining on
the COCO-Captions dataset and testing transfer learning to other datasets.
CLIP-Lite obtains a +15.4% mAP absolute gain in performance on Pascal VOC
classification, and a +22.1% top-1 accuracy gain on ImageNet, while being
comparable or superior to other, more complex, text-supervised models.
CLIP-Lite is also superior to CLIP on image and text retrieval, zero-shot
classification, and visual grounding. Finally, by performing explicit
image-text alignment during representation learning, we show that CLIP-Lite can
leverage language semantics to encourage bias-free visual representations that
can be used in downstream tasks.
- Abstract(参考訳): テキストアノテーションと特徴アライメントによる視覚表現学習のための情報効率向上手法であるCLIP-Liteを提案する。
以前提案したCLIPモデルと比較して、CLIP-Liteは、対照的な学習目標の最適化において、正のイメージテキストサンプル毎に1つの負のイメージテキストサンプルペアしか必要としない。
我々は,2つの入力モード間の相互情報を最大化するために,情報効率のよい低バウンドを利用する。
これにより、CLIP-Liteは、CLIPよりも優れたパフォーマンスを得ながら、データ量とバッチサイズを大幅に削減してトレーニングすることができる。
CLIP-LiteはCOCO-Captionsデータセットで事前トレーニングを行い、他のデータセットへの転送学習をテストする。
clip-liteはpascal voc分類での絶対的な性能向上が+15.4%、imagenetでは+22.1%のtop-1精度向上が得られ、他のより複雑なテキスト教師付きモデルと比較して優れている。
CLIP-Liteは、画像とテキストの検索、ゼロショット分類、視覚的グラウンドニングにおいてCLIPよりも優れている。
最後に、表現学習中に明示的な画像テキストアライメントを実行することで、CLIP-Liteは言語意味論を利用して、下流タスクで使用できるバイアスのない視覚表現を促進することができることを示す。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - VeCLIP: Improving CLIP Training via Visual-enriched Captions [63.547204530720705]
本研究は,ノイズキャプション書き換えのためのスケーラブルパイプラインを提案する。
視覚豊かなキャプション(VeCap)と呼ばれるキャプションへの視覚概念の組み入れを強調した。
本稿では,大規模なWebクローリングデータセットであるVeCLIP上でCLIPをトレーニングするためのこの手法の適用について紹介する。
論文 参考訳(メタデータ) (2023-10-11T17:49:13Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z) - How Much Can CLIP Benefit Vision-and-Language Tasks? [121.46042421728016]
CLIP (Contrastive Language- Image Pre-training) は大量の画像キャプチャーペアに基づいて訓練されており、様々な視覚タスクにおいて強力なゼロショット能力を示している。
多様なV&Lタスクの競合的あるいはより良い結果を得るとともに、ビジュアル質問応答、ビジュアルエンタテインメント、V&Lナビゲーションタスクに関する最新の結果を確立する。
論文 参考訳(メタデータ) (2021-07-13T20:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。