Fugu-MT 論文翻訳(概要): ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens

論文の概要: ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens

arxiv url: http://arxiv.org/abs/2309.16738v2
Date: Fri, 17 Nov 2023 06:38:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 17:41:45.568247
Title: ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens
Title（参考訳）: ELIP:低ビジョントークンによる効率的な言語画像事前学習
Authors: Yangyang Guo and Haoyu Zhang and Yongkang Wong and Liqiang Nie and Mohan Kankanhalli
Abstract要約: 本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
参考スコア（独自算出の注目度）: 75.09406436851445
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning a versatile language-image model is computationally prohibitive under a limited computing budget. This paper delves into the \emph{efficient language-image pre-training}, an area that has received relatively little attention despite its importance in reducing computational cost and footprint. To that end, we propose a vision token pruning and merging method ELIP, to remove less influential tokens based on the supervision of language outputs. Our method is designed with several strengths, such as being computation-efficient, memory-efficient, and trainable-parameter-free, and is distinguished from previous vision-only token pruning approaches by its alignment with task objectives. We implement this method in a progressively pruning manner using several sequential blocks. To evaluate its generalization performance, we apply ELIP to three commonly used language-image pre-training models and utilize public image-caption pairs with 4M images for pre-training. Our experiments demonstrate that with the removal of ~30$\%$ vision tokens across 12 ViT layers, ELIP maintains significantly comparable performance with baselines ($\sim$0.32 accuracy drop on average) over various downstream tasks including cross-modal retrieval, VQA, image captioning, \emph{etc}. In addition, the spared GPU resources by our ELIP allow us to scale up with larger batch sizes, thereby accelerating model pre-training and even sometimes enhancing downstream model performance.
Abstract（参考訳）: 汎用言語イメージモデルを学ぶことは、限られた計算予算の下では計算が禁じられている。本稿では,計算コストとフットプリントの削減の重要性にもかかわらず,比較的注目されていない領域である \emph{ efficient language-image pre-training} について述べる。そこで本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。提案手法は,計算効率,メモリ効率,トレーニング可能なパラメータフリーなど,いくつかの長所を伴って設計されており,従来の視覚のみのトークンプルーニング手法とタスク目標との整合性で区別されている。本手法は,複数の逐次ブロックを用いて漸進的プルーニング方式で実装する。一般化性能を評価するために, ELIPを3つの一般的な言語画像事前学習モデルに適用し, 4M画像を用いた公開画像キャプチャペアを用いて事前学習を行う。実験により,12ViT層にわたる30$\%のビジョントークンの除去により,ELIPは,クロスモーダル検索,VQA,画像キャプション,\emph{etc} など,さまざまな下流タスクに対して,ベースライン(平均値0.32の精度低下)と同等の性能を維持した。さらに、ELIPによるスペアGPUリソースにより、より大きなバッチサイズでスケールアップすることが可能になり、モデル事前トレーニングが加速し、場合によってはダウンストリームモデルのパフォーマンスが向上します。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-07T17:52:56Z)
Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。 UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文参考訳（メタデータ） (2024-05-29T11:48:17Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Masked Autoencoding Does Not Help Natural Language Supervision at Scale [16.277390808400828]
より大量のデータでトレーニングした場合、同様のアプローチが有効かどうかを検討する。マスク付きオートエンコーダ、MAE、コントラスト言語イメージ事前トレーニングの2つの方法を組み合わせることで、CLIPは11.3Mイメージテキストペアのコーパスでトレーニングした場合、CLIPよりもメリットがあることがわかった。
論文参考訳（メタデータ） (2023-01-19T01:05:18Z)
Effective End-to-End Vision Language Pretraining with Semantic Visual Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。 3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文参考訳（メタデータ） (2023-01-18T00:22:49Z)
Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。提案手法は, 事前学習法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2022-11-20T12:10:53Z)
ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。 ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。 ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文参考訳（メタデータ） (2022-06-22T11:55:53Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。