論文の概要: DLIP: Distilling Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2308.12956v1
- Date: Thu, 24 Aug 2023 17:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:57:08.557789
- Title: DLIP: Distilling Language-Image Pre-training
- Title(参考訳): DLIP: 蒸留言語画像事前学習
- Authors: Huafeng Kuang, Jie Wu, Xiawu Zheng, Ming Li, Xuefeng Xiao, Rui Wang,
Min Zheng, Rongrong Ji
- Abstract要約: DLIP(Distilling Language-Image Pre-training framework)を提案する。
我々は、異なるモジュールのアーキテクチャ特性など、モデルの蒸留を複数の次元から分離する。
実験結果から,DLIPは多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。
- 参考スコア(独自算出の注目度): 60.79987414368934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pre-training (VLP) shows remarkable progress with the
assistance of extremely heavy parameters, which challenges deployment in real
applications. Knowledge distillation is well recognized as the essential
procedure in model compression. However, existing knowledge distillation
techniques lack an in-depth investigation and analysis of VLP, and practical
guidelines for VLP-oriented distillation are still not yet explored. In this
paper, we present DLIP, a simple yet efficient Distilling Language-Image
Pre-training framework, through which we investigate how to distill a light VLP
model. Specifically, we dissect the model distillation from multiple
dimensions, such as the architecture characteristics of different modules and
the information transfer of different modalities. We conduct comprehensive
experiments and provide insights on distilling a light but performant VLP
model. Experimental results reveal that DLIP can achieve a state-of-the-art
accuracy/efficiency trade-off across diverse cross-modal tasks, e.g.,
image-text retrieval, image captioning and visual question answering. For
example, DLIP compresses BLIP by 1.9x, from 213M to 108M parameters, while
achieving comparable or better performance. Furthermore, DLIP succeeds in
retaining more than 95% of the performance with 22.4% parameters and 24.8%
FLOPs compared to the teacher model and accelerates inference speed by 2.7x.
- Abstract(参考訳): vision-language pre-training (vlp) は、非常に重いパラメータの助けを借りて著しく進歩している。
知識蒸留はモデル圧縮の重要な手順としてよく認識されている。
しかしながら、既存の知識蒸留技術は、VLPの詳細な調査と分析を欠いているため、VLP指向蒸留の実践的ガイドラインはまだ検討されていない。
本稿では,軽vlpモデルの蒸留方法を検討するため,簡易かつ効率的な蒸留言語画像事前学習フレームワークであるdlipを提案する。
具体的には、異なるモジュールのアーキテクチャ特性や異なるモジュールの情報伝達など、複数の次元からモデルの蒸留を分離する。
我々は, 包括的実験を行い, 軽量だが高性能なVLPモデルの蒸留に関する知見を提供する。
実験結果から,DLIPは画像テキスト検索,画像キャプション,視覚的質問応答など,多種多様なクロスモーダルタスクに対して,最先端の精度/効率トレードオフを実現することができることがわかった。
例えば、DLIPはBLIPを213Mから108Mまで1.9倍圧縮し、同等またはより良い性能を達成する。
さらに、DLIPは教師モデルと比較して、22.4%のパラメータと24.8%のFLOPで95%以上の性能を維持し、推論速度を2.7倍に加速させることに成功した。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion [27.389511043400635]
ニューラルフィールド(NeRF)は3次元シーンの実用的で汎用的な表現として広く採用されている。
本稿では, 系統的蒸留法として, アクティブラーニングを用いたプログレッシブボリューム蒸留法 (PVD-AL) を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅い体積表現からより深い体積表現への蒸留を徐々に行う。
論文 参考訳(メタデータ) (2023-04-08T13:59:18Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Multi-View Attention Transfer for Efficient Speech Enhancement [1.6932706284468382]
特徴量に基づく蒸留であるマルチビューアテンショントランスファー(MV-AT)を提案し、時間領域における効率的な音声強調モデルを得る。
MV-ATは、マルチビュー特徴抽出モデルに基づいて、教師ネットワークのマルチビュー知識を追加パラメータなしで生徒ネットワークに転送する。
論文 参考訳(メタデータ) (2022-08-22T14:47:47Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - LRC-BERT: Latent-representation Contrastive Knowledge Distillation for
Natural Language Understanding [12.208166079145538]
本稿では,角距離面から中間層の出力に適合するコントラスト学習に基づく知識蒸留法lrc-bertを提案する。
GLUE(General Language Understanding Evaluation)ベンチマークで8つのデータセットを検証することで、提案したRC-BERTの性能は既存の最先端手法を上回る。
論文 参考訳(メタデータ) (2020-12-14T08:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。