論文の概要: RECLIP: Resource-efficient CLIP by Training with Small Images
- arxiv url: http://arxiv.org/abs/2304.06028v2
- Date: Thu, 31 Aug 2023 04:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 20:30:53.536976
- Title: RECLIP: Resource-efficient CLIP by Training with Small Images
- Title(参考訳): RECLIP:小さな画像による学習による資源効率の高いCLIP
- Authors: Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo
- Abstract要約: 私たちは、CLIP(Contrastive Language Image Pretraining)の計算資源フットプリントを最小化する簡単な方法であるRECLIPを提案する。
コンピュータビジョンにおける粗粒化の概念に触発されて、我々は小さな画像を活用して、大規模言語の監督から効率的に学習する。
- 参考スコア(独自算出の注目度): 44.7490122024181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RECLIP (Resource-efficient CLIP), a simple method that minimizes
computational resource footprint for CLIP (Contrastive Language Image
Pretraining). Inspired by the notion of coarse-to-fine in computer vision, we
leverage small images to learn from large-scale language supervision
efficiently, and finetune the model with high-resolution data in the end. Since
the complexity of the vision transformer heavily depends on input image size,
our approach significantly reduces the training resource requirements both in
theory and in practice. Using the same batch size and training epoch, RECLIP
achieves highly competitive zero-shot classification and image-text retrieval
accuracy with 6 to 8x less computational resources and 7 to 9x fewer FLOPs than
the baseline. Compared to the state-of-the-art contrastive learning methods,
RECLIP demonstrates 5 to 59x training resource savings while maintaining highly
competitive zero-shot classification and retrieval performance. Finally, RECLIP
matches the state of the art in transfer learning to open-vocabulary detection
tasks, achieving 32 APr on LVIS. We hope this work will pave the path for the
broader research community to explore language supervised pretraining in
resource-friendly settings.
- Abstract(参考訳): 本稿では,CLIP (Contrastive Language Image Pretraining) の計算資源フットプリントを最小限に抑えるシンプルな手法であるRECLIPを提案する。
コンピュータビジョンにおける粗粒度の概念に着想を得て,小型画像を用いて大規模言語指導から効率的に学習し,最後に高分解能データを用いてモデルを微調整する。
視覚変換器の複雑さは入力画像サイズに大きく依存するため,本手法は理論および実際の両方において,トレーニングリソースの要求を著しく低減する。
同じバッチサイズとトレーニングエポックを用いて、RECLIPは6~8倍の計算リソースと7~9倍のFLOPで、高い競争力を持つゼロショット分類と画像テキスト検索精度を実現する。
最先端のコントラスト学習法と比較して,RECLIPは,高度に競争力のあるゼロショット分類と検索性能を維持しつつ,5~59倍のトレーニングリソースの節約を示す。
最後に、RECLIPは、LVIS上で32のAPrを達成し、オープン語彙検出タスクへの移行学習の最先端と一致する。
この取り組みが、幅広い研究コミュニティにとって、リソースフレンドリーな環境で言語を教師する事前訓練を探求する道を開くことを願っている。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文 参考訳(メタデータ) (2023-09-28T05:31:07Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - Improved baselines for vision-language pre-training [26.395527650984025]
コントラスト学習と自己教師付き学習を組み合わせることで得られるいくつかのベースラインを提案し,実装し,評価する。
これらのベースラインはCLIPの基本的な実装よりも優れています。
単純なCLIPベースラインも大幅に改善され、ダウンストリームゼロショットタスクでは25%の相対的な改善が達成できる。
論文 参考訳(メタデータ) (2023-05-15T14:31:49Z) - An Inverse Scaling Law for CLIP Training [24.961315762769893]
ここでは,CLIPトレーニングの逆スケーリング法則が存在することを示す。
限られた計算資源でもCLIPをトレーニングできるのです。
論文 参考訳(メタデータ) (2023-05-11T17:56:09Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。