論文の概要: Expediting Contrastive Language-Image Pretraining via Self-distilled
Encoders
- arxiv url: http://arxiv.org/abs/2312.12659v1
- Date: Tue, 19 Dec 2023 23:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:26:10.481806
- Title: Expediting Contrastive Language-Image Pretraining via Self-distilled
Encoders
- Title(参考訳): 自己蒸留エンコーダによるコントラスト言語画像の抽出
- Authors: Bumsoo Kim, Jinhyung Kim, Yeonsik Jo, Seung Hwan Kim
- Abstract要約: ECLIPSEは、オンライン画像エンコーダとモーメント画像エンコーダの間で共有テキストエンコーダを利用する独自の蒸留アーキテクチャを備えている。
ECLIPSEは、統合されたテキスト埋め込み空間に基づいて、オンライン画像エンコーダを高速化することにより、運動量画像エンコーダの計算コストを補う。
- 参考スコア(独自算出の注目度): 10.649402840032138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision language pretraining (VLP) have been largely
attributed to the large-scale data collected from the web. However, uncurated
dataset contains weakly correlated image-text pairs, causing data inefficiency.
To address the issue, knowledge distillation have been explored at the expense
of extra image and text momentum encoders to generate teaching signals for
misaligned image-text pairs. In this paper, our goal is to resolve the
misalignment problem with an efficient distillation framework. To this end, we
propose ECLIPSE: Expediting Contrastive Language-Image Pretraining with
Self-distilled Encoders. ECLIPSE features a distinctive distillation
architecture wherein a shared text encoder is utilized between an online image
encoder and a momentum image encoder. This strategic design choice enables the
distillation to operate within a unified projected space of text embedding,
resulting in better performance. Based on the unified text embedding space,
ECLIPSE compensates for the additional computational cost of the momentum image
encoder by expediting the online image encoder. Through our extensive
experiments, we validate that there is a sweet spot between expedition and
distillation where the partial view from the expedited online image encoder
interacts complementarily with the momentum teacher. As a result, ECLIPSE
outperforms its counterparts while achieving substantial acceleration in
inference speed.
- Abstract(参考訳): 視覚言語事前学習(VLP)の最近の進歩は、Webから収集された大規模データによるところが大きい。
しかし、未作成のデータセットには弱い相関のある画像テキストペアが含まれており、データ非効率の原因となっている。
この問題に対処するために, 画像とテキストのモーメントエンコーダを余分に利用して, 画像とテキストの相反する対の教示信号を生成する知識蒸留法が検討されている。
本稿では, 効率的な蒸留フレームワークを用いて, 誤調整問題を解決することを目的とする。
そこで本稿では, 自己蒸留エンコーダを用いたコントラスト言語-画像事前学習の高速化について述べる。
ECLIPSEは、オンライン画像エンコーダとモーメント画像エンコーダの間で共有テキストエンコーダを利用する独自の蒸留アーキテクチャを備えている。
この戦略的設計選択により、蒸留はテキスト埋め込みの統一された射影空間内で動作し、より良い性能が得られる。
ECLIPSEは、統合されたテキスト埋め込み空間に基づいて、オンライン画像エンコーダを高速化することにより、運動量画像エンコーダの計算コストを補う。
広範な実験を通じて,オンライン画像エンコーダによる部分的視点がモーメント教師と相補的に相互作用する,探索と蒸留の間にはスイートスポットがあることを確認した。
その結果、ECLIPSEは、推論速度において相当な加速を達成しつつ、それよりも優れる。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Reducing Task Discrepancy of Text Encoders for Zero-Shot Composed Image Retrieval [34.065449743428005]
Composed Image Retrieval (CIR) は、参照画像と条件付きテキストに基づいてターゲット画像を取得することを目的としており、制御可能な検索を可能にする。
本稿では,テキストエンコーダ用プラグアンドプレイトレーニングスキームであるComposeed Image Retrieval (RTD) のためのテキストエンコーダのタスク離散化について紹介する。
また,提案手法を改善するための2つの手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:49:28Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - EncoderMI: Membership Inference against Pre-trained Encoders in
Contrastive Learning [27.54202989524394]
コントラスト学習によって事前訓練された画像エンコーダに対する最初のメンバーシップ推論手法であるMIを提案する。
複数のデータセットで事前学習した画像エンコーダと、OpenAIが収集した4億(画像、テキスト)のペアで事前学習したContrastive Language- Image Pre-training (CLIP)画像エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-08-25T03:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。