論文の概要: ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens
- arxiv url: http://arxiv.org/abs/2309.16738v2
- Date: Fri, 17 Nov 2023 06:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:41:45.568247
- Title: ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens
- Title(参考訳): ELIP:低ビジョントークンによる効率的な言語画像事前学習
- Authors: Yangyang Guo and Haoyu Zhang and Yongkang Wong and Liqiang Nie and
Mohan Kankanhalli
- Abstract要約: 本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
- 参考スコア(独自算出の注目度): 75.09406436851445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a versatile language-image model is computationally prohibitive
under a limited computing budget. This paper delves into the \emph{efficient
language-image pre-training}, an area that has received relatively little
attention despite its importance in reducing computational cost and footprint.
To that end, we propose a vision token pruning and merging method ELIP, to
remove less influential tokens based on the supervision of language outputs.
Our method is designed with several strengths, such as being
computation-efficient, memory-efficient, and trainable-parameter-free, and is
distinguished from previous vision-only token pruning approaches by its
alignment with task objectives. We implement this method in a progressively
pruning manner using several sequential blocks. To evaluate its generalization
performance, we apply ELIP to three commonly used language-image pre-training
models and utilize public image-caption pairs with 4M images for pre-training.
Our experiments demonstrate that with the removal of ~30$\%$ vision tokens
across 12 ViT layers, ELIP maintains significantly comparable performance with
baselines ($\sim$0.32 accuracy drop on average) over various downstream tasks
including cross-modal retrieval, VQA, image captioning, \emph{etc}. In
addition, the spared GPU resources by our ELIP allow us to scale up with larger
batch sizes, thereby accelerating model pre-training and even sometimes
enhancing downstream model performance.
- Abstract(参考訳): 汎用言語イメージモデルを学ぶことは、限られた計算予算の下では計算が禁じられている。
本稿では,計算コストとフットプリントの削減の重要性にもかかわらず,比較的注目されていない領域である \emph{ efficient language-image pre-training} について述べる。
そこで本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。
提案手法は,計算効率,メモリ効率,トレーニング可能なパラメータフリーなど,いくつかの長所を伴って設計されており,従来の視覚のみのトークンプルーニング手法とタスク目標との整合性で区別されている。
本手法は,複数の逐次ブロックを用いて漸進的プルーニング方式で実装する。
一般化性能を評価するために, ELIPを3つの一般的な言語画像事前学習モデルに適用し, 4M画像を用いた公開画像キャプチャペアを用いて事前学習を行う。
実験により,12ViT層にわたる30$\%のビジョントークンの除去により,ELIPは,クロスモーダル検索,VQA,画像キャプション,\emph{etc} など,さまざまな下流タスクに対して,ベースライン(平均値0.32の精度低下)と同等の性能を維持した。
さらに、ELIPによるスペアGPUリソースにより、より大きなバッチサイズでスケールアップすることが可能になり、モデル事前トレーニングが加速し、場合によってはダウンストリームモデルのパフォーマンスが向上します。
関連論文リスト
- Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。
マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文 参考訳(メタデータ) (2023-01-19T01:05:18Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。