論文の概要: Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval
- arxiv url: http://arxiv.org/abs/2405.14726v1
- Date: Thu, 23 May 2024 15:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:06:33.644198
- Title: Distilling Vision-Language Pretraining for Efficient Cross-Modal Retrieval
- Title(参考訳): 効率的なクロスモーダル検索のための蒸留ビジョンランゲージ事前学習
- Authors: Young Kyun Jang, Donghyun Kim, Ser-nam Lim,
- Abstract要約: ハッシュの学習は、高速な検索速度と低ストレージコストを提供する、効率的な検索のための実用的なソリューションである。
本研究は, 学習能力の向上と, 強力な事前学習モデルの普及を両立させる可能性を探るものである。
ハッシュ表現学習を改善するために,DCMQ (Distillation for Cross-Modal Quantization) という新しい手法を提案する。
- 参考スコア(独自算出の注目度): 44.61221990245263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ``Learning to hash'' is a practical solution for efficient retrieval, offering fast search speed and low storage cost. It is widely applied in various applications, such as image-text cross-modal search. In this paper, we explore the potential of enhancing the performance of learning to hash with the proliferation of powerful large pre-trained models, such as Vision-Language Pre-training (VLP) models. We introduce a novel method named Distillation for Cross-Modal Quantization (DCMQ), which leverages the rich semantic knowledge of VLP models to improve hash representation learning. Specifically, we use the VLP as a `teacher' to distill knowledge into a `student' hashing model equipped with codebooks. This process involves the replacement of supervised labels, which are composed of multi-hot vectors and lack semantics, with the rich semantics of VLP. In the end, we apply a transformation termed Normalization with Paired Consistency (NPC) to achieve a discriminative target for distillation. Further, we introduce a new quantization method, Product Quantization with Gumbel (PQG) that promotes balanced codebook learning, thereby improving the retrieval performance. Extensive benchmark testing demonstrates that DCMQ consistently outperforms existing supervised cross-modal hashing approaches, showcasing its significant potential.
- Abstract(参考訳): は効率的な検索のための実用的なソリューションであり、高速な検索速度と低ストレージコストを提供する。
画像テキストのクロスモーダル検索など、様々な用途に広く応用されている。
本稿では,VLP(Vision-Language Pre-Training)モデルなどの大規模事前学習モデルの普及に伴う学習性能向上の可能性を検討する。
本稿では,VLPモデルの豊富な意味的知識を活用し,ハッシュ表現学習を改善する新しい手法であるDistillation for Cross-Modal Quantization (DCMQ)を提案する。
具体的には、VLPを'Teacher'として使用して、知識をコードブックを備えた'student'ハッシュモデルに抽出する。
このプロセスでは、マルチホットベクトルとセマンティクスの欠如からなる教師付きラベルをVLPのリッチなセマンティクスに置き換える。
最後に,Paired Consistency (NPC) による正規化という変換を適用し,蒸留の差別的目標を達成する。
さらに、バランスの取れたコードブック学習を促進し、検索性能を向上させる新しい量化手法であるGumbel(PQG)を導入する。
大規模なベンチマークテストでは、DCMQが既存の教師付きクロスモーダルハッシュアプローチを一貫して上回っており、その大きな可能性を示している。
関連論文リスト
- Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - CUCL: Codebook for Unsupervised Continual Learning [129.91731617718781]
本研究は,教師なし連続学習(UCL)の代替として,教師なし連続学習(UCL)に焦点を当てている。
本稿では,教師なし連続学習のためのCodebook for Unsupervised Continual Learning (CUCL) という手法を提案する。
本手法は教師なしおよび教師なしの手法の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-25T03:08:50Z) - REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models [11.78036105494679]
本稿では,Large Language Models (LLMs) の性能を向上させる新しいコード・ツー・コード検索手法を提案する。
本稿では,学習中の動的情報を検索対象のコーパスや,推論時に検索クエリを実行することなく符号化するコード検索手法を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:46:56Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - An Efficient Combinatorial Optimization Model Using Learning-to-Rank
Distillation [2.0137632982900207]
本稿では, 高速なランク付けポリシを非定型的, 簡易なモデルに抽出可能な, 学習からランク付けへの蒸留に基づくCOPフレームワークを提案する。
具体的には、近似されたランキング蒸留を用いて、勾配降下によるスコアベースランキングモデルを学習可能にする。
蒸留されたモデルは, それぞれの高性能RLに匹敵する性能を達成できるが, 数倍高速な推算も可能であることを実証する。
論文 参考訳(メタデータ) (2021-12-24T10:52:47Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。
教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文 参考訳(メタデータ) (2020-05-18T08:23:41Z) - Learning to Hash with Graph Neural Networks for Recommender Systems [103.82479899868191]
グラフ表現学習は、大規模に高品質な候補探索をサポートすることに多くの注目を集めている。
ユーザ・イテム相互作用ネットワークにおけるオブジェクトの埋め込みベクトルの学習の有効性にもかかわらず、連続的な埋め込み空間におけるユーザの好みを推測する計算コストは膨大である。
連続的かつ離散的なコードとを協調的に学習するための,単純かつ効果的な離散表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-04T06:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。