論文の概要: Compressing Visual-linguistic Model via Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2104.02096v1
- Date: Mon, 5 Apr 2021 18:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 00:48:27.787655
- Title: Compressing Visual-linguistic Model via Knowledge Distillation
- Title(参考訳): 知識蒸留による視覚言語モデル圧縮
- Authors: Zhiyuan Fang, Jianfeng Wang, Xiaowei Hu, Lijuan Wang, Yezhou Yang,
Zicheng Liu
- Abstract要約: 変圧器を用いた大規模視覚言語モデルを小型モデルに圧縮するための知識蒸留の研究を行う。
提案した蒸留は,画像キャプションおよび視覚的質問応答タスクにおける小型VLモデルの性能を有意に向上させることを示した。
- 参考スコア(独自算出の注目度): 43.73998154661652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite exciting progress in pre-training for visual-linguistic (VL)
representations, very few aspire to a small VL model. In this paper, we study
knowledge distillation (KD) to effectively compress a transformer-based large
VL model into a small VL model. The major challenge arises from the
inconsistent regional visual tokens extracted from different detectors of
Teacher and Student, resulting in the misalignment of hidden representations
and attention distributions. To address the problem, we retrain and adapt the
Teacher by using the same region proposals from Student's detector while the
features are from Teacher's own object detector. With aligned network inputs,
the adapted Teacher is capable of transferring the knowledge through the
intermediate representations. Specifically, we use the mean square error loss
to mimic the attention distribution inside the transformer block and present a
token-wise noise contrastive loss to align the hidden state by contrasting with
negative representations stored in a sample queue. To this end, we show that
our proposed distillation significantly improves the performance of small VL
models on image captioning and visual question answering tasks. It reaches
120.8 in CIDEr score on COCO captioning, an improvement of 5.1 over its
non-distilled counterpart; and an accuracy of 69.8 on VQA 2.0, a 0.8 gain from
the baseline. Our extensive experiments and ablations confirm the effectiveness
of VL distillation in both pre-training and fine-tuning stages.
- Abstract(参考訳): 視覚言語学(VL)表現の事前学習のエキサイティングな進歩にもかかわらず、小さなVLモデルへの意図はほとんどない。
本稿では,変圧器を用いた大型VLモデルを小型VLモデルに効果的に圧縮するための知識蒸留(KD)について検討する。
主な課題は、教師と生徒の異なる検出器から抽出された一貫性のない地域的視覚トークンから生じ、隠された表現と注意の分布を誤認することである。
問題に対処するために,教師自身の物体検出装置からの特徴を把握しながら,学生の検出器からの提案と同じ領域を用いて教師を再訓練し適応する。
調整されたネットワーク入力により、適応された教師は中間表現を通して知識を伝達することができる。
具体的には、平均二乗誤差損失を用いて変圧器ブロック内の注意分布を模倣し、サンプルキューに格納された負の表現と対比して隠れた状態を調整するためにトークン回りのノイズコントラスト損失を示す。
そこで本研究では, 画像キャプションと視覚的質問応答タスクにおいて, 小型vlモデルの性能が大幅に向上することを示す。
cocoキャプションでのciderスコアは120.8に達し、非蒸留のキャプションよりも5.1改善され、vqa 2.0では69.8でベースラインから0.8上昇した。
プレトレーニングおよび微調整段階におけるVL蒸留の有効性を確認した。
関連論文リスト
- Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Anomaly Detection by Adapting a pre-trained Vision Language Model [48.225404732089515]
トレーニング済みのCLIPモデルに適応することで,異常検出のためのCLIP-ADAという統合フレームワークを提案する。
学習可能なプロンプトを導入し、自己教師付き学習を通して異常パターンに関連付けることを提案する。
MVTec-AD と VisA の異常検出と局所化のための最新技術 97.5/55.6 と 89.3/33.1 を実現した。
論文 参考訳(メタデータ) (2024-03-14T15:35:07Z) - Distilling Efficient Vision Transformers from CNNs for Semantic
Segmentation [12.177329445930276]
我々はC2VKDと呼ばれる新しいCNN-to-ViT KDフレームワークを提案する。
まず視覚的特徴蒸留(VLFD)モジュールを提案する。
そこで我々は,ラベルと教師の予測とを併用して学生を監督する,画素ワイド・デカップリング蒸留(PDD)モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:45:37Z) - Knowledge Diffusion for Distillation [53.908314960324915]
知識蒸留(KD)における教師と学生の表現ギャップ
これらの手法の本質は、ノイズ情報を捨て、その特徴の貴重な情報を蒸留することである。
DiffKDと呼ばれる新しいKD手法を提案し、拡散モデルを用いて特徴を明示的に識別し一致させる。
論文 参考訳(メタデータ) (2023-05-25T04:49:34Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Anomaly Detection via Reverse Distillation from One-Class Embedding [2.715884199292287]
教師エンコーダと生徒デコーダからなる新しいT-Sモデルを提案する。
生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り込む。
さらに、T-Sモデルにトレーニング可能な1クラスボトルネック埋め込みモジュールを導入する。
論文 参考訳(メタデータ) (2022-01-26T01:48:37Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Distilling Object Detectors with Task Adaptive Regularization [97.52935611385179]
現在の最先端のオブジェクト検出器は高い計算コストを犠牲にしており、ローエンドデバイスへのデプロイが困難である。
より大規模な教師モデルから知識を伝達することで、より小さな学生ネットワークを訓練することを目的とした知識蒸留は、モデル小型化のための有望な解決策の1つである。
論文 参考訳(メタデータ) (2020-06-23T15:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。