論文の概要: CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation
- arxiv url: http://arxiv.org/abs/2308.07146v1
- Date: Mon, 14 Aug 2023 13:53:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:06:39.911520
- Title: CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation
- Title(参考訳): CTP:コンパチブルモーメントコントラストとトポロジー保存によるビジョンランゲージ継続事前訓練に向けて
- Authors: Hongguang Zhu, Yunchao Wei, Xiaodan Liang, Chunjie Zhang, Yao Zhao
- Abstract要約: Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
- 参考スコア(独自算出の注目度): 128.00940554196976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Pretraining (VLP) has shown impressive results on diverse
downstream tasks by offline training on large-scale datasets. Regarding the
growing nature of real-world data, such an offline training paradigm on
ever-expanding data is unsustainable, because models lack the continual
learning ability to accumulate knowledge constantly. However, most continual
learning studies are limited to uni-modal classification and existing
multi-modal datasets cannot simulate continual non-stationary data stream
scenarios. To support the study of Vision-Language Continual Pretraining
(VLCP), we first contribute a comprehensive and unified benchmark dataset P9D
which contains over one million product image-text pairs from 9 industries. The
data from each industry as an independent task supports continual learning and
conforms to the real-world long-tail nature to simulate pretraining on web
data. We comprehensively study the characteristics and challenges of VLCP, and
propose a new algorithm: Compatible momentum contrast with Topology
Preservation, dubbed CTP. The compatible momentum model absorbs the knowledge
of the current and previous-task models to flexibly update the modal feature.
Moreover, Topology Preservation transfers the knowledge of embedding across
tasks while preserving the flexibility of feature adjustment. The experimental
results demonstrate our method not only achieves superior performance compared
with other baselines but also does not bring an expensive training burden.
Dataset and codes are available at https://github.com/KevinLight831/CTP.
- Abstract(参考訳): Vision-Language Pretraining (VLP)は、大規模なデータセット上でのオフライントレーニングによって、さまざまな下流タスクに対して印象的な結果を示している。
実世界のデータの性質の増大については、モデルが常に知識を蓄積する継続的学習能力に欠けるため、常に拡大するデータのオフライントレーニングパラダイムは持続不可能である。
しかし、ほとんどの連続学習研究はユニモーダル分類に限定されており、既存のマルチモーダルデータセットは連続的な非定常データストリームシナリオをシミュレートすることはできない。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために、9つの業界から100万以上の製品イメージテキストペアを含む、総合的で統一されたベンチマークデータセットP9Dを最初に提供します。
独立したタスクとしての各業界からのデータは継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
我々は,VLCPの特徴と課題を包括的に研究し,新しいアルゴリズムを提案する。
互換運動量モデルは、現在のおよび以前のタスクモデルの知識を吸収し、そのモーダル特徴を柔軟に更新する。
さらにトポロジ保存は,機能調整の柔軟性を維持しつつ,タスク間の埋め込みに関する知識を伝達する。
実験の結果,本手法は他のベースラインと比較して優れた性能が得られるだけでなく,高いトレーニング負担をもたらさないことを示した。
データセットとコードはhttps://github.com/KevinLight831/CTPで入手できる。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。
異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。
我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文 参考訳(メタデータ) (2024-09-20T09:53:27Z) - Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training [44.790636524264]
ポイント・プロンプト・トレーニング(Point Prompt Training)は、3D表現学習の文脈におけるマルチデータセットのシナジスティック学習のための新しいフレームワークである。
シナジスティック学習に関連する負の移動を克服し、一般化可能な表現を生成する。
教師付きマルチデータセットトレーニングを備えた1つの重み付きモデルを用いて、各データセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-18T17:59:57Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。