論文の概要: Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.14715v1
- Date: Thu, 23 May 2024 15:46:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 14:16:19.428271
- Title: Towards Cross-modal Backward-compatible Representation Learning for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのモーダルな後方互換表現学習に向けて
- Authors: Young Kyun Jang, Ser-nam Lim,
- Abstract要約: 後方互換性トレーニング(BT)は、新しいモデルが古いモデルの埋め込みと整合することを保証するために提案されている。
本稿では、視覚のみのBTの概念を、クロスモーダル検索の分野に拡張する。
本稿では,新しいモデルの埋め込みを古いモデルにマッピングするプロジェクションモジュールを提案する。
- 参考スコア(独自算出の注目度): 44.56258991182532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern retrieval systems often struggle with upgrading to new and more powerful models due to the incompatibility of embeddings between the old and new models. This necessitates a costly process known as backfilling, which involves re-computing the embeddings for a large number of data samples. In vision, Backward-compatible Training (BT) has been proposed to ensure that the new model aligns with the old model's embeddings. This paper extends the concept of vision-only BT to the field of cross-modal retrieval, marking the first attempt to address Cross-modal BT (XBT). Our goal is to achieve backward-compatibility between Vision-Language Pretraining (VLP) models, such as CLIP, for the cross-modal retrieval task. To address XBT challenges, we propose an efficient solution: a projection module that maps the new model's embeddings to those of the old model. This module, pretrained solely with text data, significantly reduces the number of image-text pairs required for XBT learning, and, once it is pretrained, it avoids using the old model during training. Furthermore, we utilize parameter-efficient training strategies that improve efficiency and preserve the off-the-shelf new model's knowledge by avoiding any modifications. Experimental results on cross-modal retrieval datasets demonstrate the effectiveness of XBT and its potential to enable backfill-free upgrades when a new VLP model emerges.
- Abstract(参考訳): 現代の検索システムは、古いモデルと新しいモデルの間の埋め込みの非互換性のために、新しいより強力なモデルへのアップグレードに苦慮することが多い。
これは、大量のデータサンプルに対する埋め込みを再計算する、バックフィルと呼ばれるコストのかかるプロセスを必要とする。
ビジョンにおいて、新しいモデルが古いモデルの埋め込みと一致することを保証するために、後方互換トレーニング(BT)が提案されている。
本稿では、視覚のみのBTの概念をクロスモーダル検索の分野に拡張し、クロスモーダルBT(XBT)に対処する最初の試みを示す。
我々のゴールは、モーダル横断検索タスクにおいて、CLIPのようなビジョンランゲージ事前学習(VLP)モデル間の後方互換性を達成することである。
XBT問題に対処するために,新しいモデルの埋め込みを古いモデルにマッピングするプロジェクションモジュールという,効率的な解を提案する。
このモジュールは、テキストデータのみで事前訓練されており、XBT学習に必要な画像とテキストのペアの数を著しく減らし、事前訓練された後、トレーニング中に古いモデルを使用するのを避ける。
さらに、パラメータ効率のトレーニング戦略を利用して効率を向上し、いかなる修正も回避し、既製の新しいモデルの知識を保ちます。
クロスモーダル検索データセットの実験結果は、XBTの有効性と、新しいVLPモデルが出現したときのバックフィルフリーアップグレードを可能にする可能性を示している。
関連論文リスト
- Backward-Compatible Aligned Representations via an Orthogonal Transformation Layer [20.96380700548786]
画像検索システムは、古い表現と新しい表現のミスアライメントにより、表現が改善されたモデルを更新する際の課題に直面している。
以前の研究では、バックフィルなしで新しい表現と古い表現を直接比較できる後方互換性のあるトレーニング方法が検討されてきた。
本稿では、後方互換性と独立に訓練されたモデルの性能のバランスをとることに取り組む。
論文 参考訳(メタデータ) (2024-08-16T15:05:28Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - MixBCT: Towards Self-Adapting Backward-Compatible Training [66.52766344751635]
そこで本研究では,単純かつ高効率な後方互換性学習法であるMixBCTを提案する。
大規模顔認識データセットMS1Mv3とIJB-Cについて実験を行った。
論文 参考訳(メタデータ) (2023-08-14T05:55:38Z) - Boundary-aware Backward-Compatible Representation via Adversarial
Learning in Image Retrieval [17.995993499100017]
後方互換性トレーニング(BCT)は、検索性能に悪影響を与えることなく、2つのモデルの互換性を改善する。
本稿では,弾性境界制約付き逆向き学習法AdvBCTを紹介する。
本手法は,互換性と差別性の両方において,他のBCT法よりも優れる。
論文 参考訳(メタデータ) (2023-05-04T07:37:07Z) - Towards Universal Backward-Compatible Representation Learning [29.77801805854168]
バックフィルフリーモデルアップグレードをサポートするために、後方互換性のある表現学習が導入されている。
まず、モデルアップグレードにおいて、可能なすべてのデータ分割を網羅する、普遍的な後方互換性のある表現学習の新たな問題を導入する。
提案手法は,Universal Backward- Training (UniBCT) とよばれる,シンプルで効果的な手法である。
論文 参考訳(メタデータ) (2022-03-03T09:23:51Z) - Forward Compatible Training for Representation Learning [53.300192863727226]
後方互換トレーニング(BCT)は、新しいモデルのトレーニングを変更して、その表現を古いモデルのトレーニングと互換性を持たせる。
BCTは新しいモデルの性能を著しく損なう可能性がある。
本研究では,表現学習のための新しい学習パラダイムである,前方互換学習(FCT)を提案する。
論文 参考訳(メタデータ) (2021-12-06T06:18:54Z) - Towards Backward-Compatible Representation Learning [86.39292571306395]
異なる次元であっても,従来の計算機能と互換性のある視覚的特徴を学習する方法を提案する。
これにより、埋め込みモデルを更新する際に、以前見たすべての画像の新機能の計算を回避できる。
本稿では、後方互換表現学習の第一歩として、後方互換学習(BCT)と呼ばれる埋め込みモデルを訓練するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-26T14:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。