論文の概要: Dynamic Contrastive Distillation for Image-Text Retrieval
- arxiv url: http://arxiv.org/abs/2207.01426v1
- Date: Mon, 4 Jul 2022 14:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:30:40.741200
- Title: Dynamic Contrastive Distillation for Image-Text Retrieval
- Title(参考訳): 画像テキスト検索のためのダイナミックコントラスト蒸留
- Authors: Jun Rao, Liang Ding, Shuhan Qi, Meng Fang, Yang Liu, Li Shen, Dacheng
Tao
- Abstract要約: 画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
- 参考スコア(独自算出の注目度): 90.05345397400144
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Although the vision-and-language pretraining (VLP) equipped cross-modal
image-text retrieval (ITR) has achieved remarkable progress in the past two
years, it suffers from a major drawback: the ever-increasing size of VLP models
restricts its deployment to real-world search scenarios (where the high latency
is unacceptable). To alleviate this problem, we present a novel plug-in dynamic
contrastive distillation (DCD) framework to compress the large VLP models for
the ITR task. Technically, we face the following two challenges: 1) the typical
uni-modal metric learning approach is difficult to directly apply to the
cross-modal tasks, due to the limited GPU memory to optimize too many negative
samples during handling cross-modal fusion features. 2) it is inefficient to
static optimize the student network from different hard samples, which have
different effects on distillation learning and student network optimization. We
try to overcome these challenges from two points. First, to achieve multi-modal
contrastive learning, and balance the training costs and effects, we propose to
use a teacher network to estimate the difficult samples for students, making
the students absorb the powerful knowledge from pre-trained teachers, and
master the knowledge from hard samples. Second, to dynamic learn from hard
sample pairs, we propose dynamic distillation to dynamically learn samples of
different difficulties, from the perspective of better balancing the difficulty
of knowledge and students' self-learning ability. We successfully apply our
proposed DCD strategy to two state-of-the-art vision-language pretrained
models, i.e. ViLT and METER. Extensive experiments on MS-COCO and Flickr30K
benchmarks show the effectiveness and efficiency of our DCD framework.
Encouragingly, we can speed up the inference at least 129$\times$ compared to
the existing ITR models.
- Abstract(参考訳): ビジョン・アンド・ランゲージ事前学習(VLP)搭載のクロスモーダル画像テキスト検索(ITR)は過去2年間に顕著な進歩を遂げてきたが、VLPモデルのサイズが増加し続けることで、現実の検索シナリオ(高いレイテンシが受け入れられない)への展開が制限されるという大きな欠点に悩まされている。
この問題を軽減するために, ITRタスク用の大型VLPモデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
技術的には、以下の2つの課題に直面します。
1) クロスモーダル・フュージョン機能を扱う場合,GPUメモリが過剰に多くの負のサンプルを最適化するため,一般的なユニモーダル・メトリック・ラーニングアプローチは,クロスモーダル・タスクに直接適用することは困難である。
2) 異なるハードサンプルから生徒ネットワークを静的に最適化することは, 蒸留学習や学生ネットワーク最適化に異なる影響を与えるため, 効率的ではない。
私たちはこれらの課題を2点から克服しようとする。
まず,マルチモーダルコントラスト学習を実現し,トレーニングコストと効果のバランスをとるために,教師ネットワークを用いて,学生にとって難しいサンプルを推定し,事前学習した教師から強力な知識を吸収し,ハードサンプルから知識を習得させることを提案する。
第2に,ハードサンプル対から動的に学習するために,知識の難易度と学習者の自己学習能力のバランスを良くする観点から,異なる困難のサンプルを動的に学習する動的蒸留を提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用した。
MS-COCOとFlickr30Kベンチマークの大規模な実験は、我々のDCDフレームワークの有効性と効率を示している。
既存のIRRモデルと比較して、少なくとも129$\times$の推論を高速化できる。
関連論文リスト
- CFTS-GAN: Continual Few-Shot Teacher Student for Generative Adversarial Networks [0.5024983453990064]
GANでは、過度なフィットと破滅的な忘れ込みという、2つのよく知られた課題に直面しています。
本稿では,2つの課題を同時に考えるCFTS-GANのための連続的Few-shot Teacher-Student手法を提案する。
論文 参考訳(メタデータ) (2024-10-17T20:49:08Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - DisCo: Distilled Student Models Co-training for Semi-supervised Text
Mining [23.418419374791107]
DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。
本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-20T03:23:16Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - A Practical Contrastive Learning Framework for Single-Image
Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。
SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。
既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-27T15:42:12Z) - Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。
いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文 参考訳(メタデータ) (2021-09-14T12:53:35Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。