Fugu-MT 論文翻訳(概要): Dynamic Contrastive Distillation for Image-Text Retrieval

論文の概要: Dynamic Contrastive Distillation for Image-Text Retrieval

arxiv url: http://arxiv.org/abs/2207.01426v1
Date: Mon, 4 Jul 2022 14:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-05 12:30:40.741200
Title: Dynamic Contrastive Distillation for Image-Text Retrieval
Title（参考訳）: 画像テキスト検索のためのダイナミックコントラスト蒸留
Authors: Jun Rao, Liang Ding, Shuhan Qi, Meng Fang, Yang Liu, Li Shen, Dacheng Tao
Abstract要約: 画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。 MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
参考スコア（独自算出の注目度）: 90.05345397400144
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Although the vision-and-language pretraining (VLP) equipped cross-modal image-text retrieval (ITR) has achieved remarkable progress in the past two years, it suffers from a major drawback: the ever-increasing size of VLP models restricts its deployment to real-world search scenarios (where the high latency is unacceptable). To alleviate this problem, we present a novel plug-in dynamic contrastive distillation (DCD) framework to compress the large VLP models for the ITR task. Technically, we face the following two challenges: 1) the typical uni-modal metric learning approach is difficult to directly apply to the cross-modal tasks, due to the limited GPU memory to optimize too many negative samples during handling cross-modal fusion features. 2) it is inefficient to static optimize the student network from different hard samples, which have different effects on distillation learning and student network optimization. We try to overcome these challenges from two points. First, to achieve multi-modal contrastive learning, and balance the training costs and effects, we propose to use a teacher network to estimate the difficult samples for students, making the students absorb the powerful knowledge from pre-trained teachers, and master the knowledge from hard samples. Second, to dynamic learn from hard sample pairs, we propose dynamic distillation to dynamically learn samples of different difficulties, from the perspective of better balancing the difficulty of knowledge and students' self-learning ability. We successfully apply our proposed DCD strategy to two state-of-the-art vision-language pretrained models, i.e. ViLT and METER. Extensive experiments on MS-COCO and Flickr30K benchmarks show the effectiveness and efficiency of our DCD framework. Encouragingly, we can speed up the inference at least 129$\times$ compared to the existing ITR models.
Abstract（参考訳）: ビジョン・アンド・ランゲージ事前学習(VLP)搭載のクロスモーダル画像テキスト検索(ITR)は過去2年間に顕著な進歩を遂げてきたが、VLPモデルのサイズが増加し続けることで、現実の検索シナリオ(高いレイテンシが受け入れられない)への展開が制限されるという大きな欠点に悩まされている。この問題を軽減するために, ITRタスク用の大型VLPモデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。技術的には、以下の2つの課題に直面します。 1) クロスモーダル・フュージョン機能を扱う場合,GPUメモリが過剰に多くの負のサンプルを最適化するため,一般的なユニモーダル・メトリック・ラーニングアプローチは,クロスモーダル・タスクに直接適用することは困難である。 2) 異なるハードサンプルから生徒ネットワークを静的に最適化することは, 蒸留学習や学生ネットワーク最適化に異なる影響を与えるため, 効率的ではない。私たちはこれらの課題を2点から克服しようとする。まず,マルチモーダルコントラスト学習を実現し,トレーニングコストと効果のバランスをとるために,教師ネットワークを用いて,学生にとって難しいサンプルを推定し,事前学習した教師から強力な知識を吸収し,ハードサンプルから知識を習得させることを提案する。第2に,ハードサンプル対から動的に学習するために,知識の難易度と学習者の自己学習能力のバランスを良くする観点から,異なる困難のサンプルを動的に学習する動的蒸留を提案する。提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用した。 MS-COCOとFlickr30Kベンチマークの大規模な実験は、我々のDCDフレームワークの有効性と効率を示している。既存のIRRモデルと比較して、少なくとも129$\times$の推論を高速化できる。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Progressive Mastery: Customized Curriculum Learning with Guided Prompting for Mathematical Reasoning [43.12759195699103]
大規模言語モデル(LLM)は、様々な推論タスクにおいて顕著な性能を達成しているが、非効率なサンプル利用と非フレキシブルな難易度サンプル処理によって後処理が制限されている。本稿では,2つの重要なイノベーションを持つ新しいフレームワークであるCustomized Curriculum Learning (CCL)を提案する。まず,各モデルの個々の能力に基づいてカリキュラムデータセットをカスタマイズする,モデル適応的難易度定義を導入する。第2に,戦略的なヒントによって標本の難易度を動的に低減し,性能を低下させるような挑戦的な試料を効果的に活用する「ガイド・プロンプティング」を開発した。
論文参考訳（メタデータ） (2025-06-04T15:31:46Z)
Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文参考訳（メタデータ） (2025-05-19T15:43:10Z)
Sample-level Adaptive Knowledge Distillation for Action Recognition [43.35357057084902]
知識蒸留(KD)は、訓練済みの大規模ネットワーク(教師)から知識を伝達することで、小さなネットワーク(学生)を学習することでニューラルネットワークを圧縮する本稿では,アクション認識のためのサンプルレベルの適応的知識蒸留フレームワークを提案する。 2つのビデオベンチマークと1つの画像ベンチマークの実験結果から,提案手法の優位性を実証した。
論文参考訳（メタデータ） (2025-04-01T10:04:20Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models [6.8298782282181865]
本稿では,新規な知識蒸留法である$textitTemporally Adaptive Interpolated Distillation (TAID)$を紹介する。 TAIDは,各種モデルサイズおよびアーキテクチャに対して,命令チューニングと事前学習のシナリオにおいて優れた性能を示す。これらの結果は、TAIDが高性能で効率的なモデルの作成に有効であることを示し、よりアクセスしやすいAI技術の開発を推進している。
論文参考訳（メタデータ） (2025-01-28T13:31:18Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
CFTS-GAN: Continual Few-Shot Teacher Student for Generative Adversarial Networks [0.5024983453990064]
GANでは、過度なフィットと破滅的な忘れ込みという、2つのよく知られた課題に直面しています。本稿では,2つの課題を同時に考えるCFTS-GANのための連続的Few-shot Teacher-Student手法を提案する。
論文参考訳（メタデータ） (2024-10-17T20:49:08Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining [23.418419374791107]
DisCoは、大規模なPLMから生成された小学生モデルのコホートを微調整するための半教師付き学習フレームワークである。本研究では,DisCoがベースラインPLMの7.6倍,推論速度が4.8倍の学生モデルを作成可能であることを示す。
論文参考訳（メタデータ） (2023-05-20T03:23:16Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
EUCLID: Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文参考訳（メタデータ） (2022-10-02T12:11:44Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
A Practical Contrastive Learning Framework for Single-Image Super-Resolution [51.422185656787285]
コントラスト学習に基づく単一画像の超解像を2つの視点から検討する。 SISR のための実践的コントラスト学習フレームワーク PCL-SR を提案する。既存のベンチマーク手法と比較して,提案手法をPCL-SRフレームワークで再学習し,優れた性能を実現する。
論文参考訳（メタデータ） (2021-11-27T15:42:12Z)
Multi-Scale Aligned Distillation for Low-Resolution Detection [68.96325141432078]
本稿では,高分解能モデルや多分解能モデルから知識を抽出することで,低分解能モデルの性能を向上させることに焦点を当てる。いくつかのインスタンスレベルの検出タスクとデータセットにおいて,本手法を用いて訓練された低解像度モデルと,従来のマルチスケールトレーニングによる訓練された高解像度モデルとを競合的に処理する。
論文参考訳（メタデータ） (2021-09-14T12:53:35Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。