論文の概要: Generative Negative Text Replay for Continual Vision-Language
Pretraining
- arxiv url: http://arxiv.org/abs/2210.17322v1
- Date: Mon, 31 Oct 2022 13:42:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:53:06.662533
- Title: Generative Negative Text Replay for Continual Vision-Language
Pretraining
- Title(参考訳): 連続視覚言語事前学習のための生成ネガティブテキスト再生
- Authors: Shipeng Yan, Lanqing Hong, Hang Xu, Jianhua Han, Tinne Tuytelaars,
Zhenguo Li, Xuming He
- Abstract要約: 視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 95.2784858069843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) has attracted increasing attention
recently. With a large amount of image-text pairs, VLP models trained with
contrastive loss have achieved impressive performance in various tasks,
especially the zero-shot generalization on downstream datasets. In practical
applications, however, massive data are usually collected in a streaming
fashion, requiring VLP models to continuously integrate novel knowledge from
incoming data and retain learned knowledge. In this work, we focus on learning
a VLP model with sequential chunks of image-text pair data. To tackle the
catastrophic forgetting issue in this multi-modal continual learning setting,
we first introduce pseudo text replay that generates hard negative texts
conditioned on the training images in memory, which not only better preserves
learned knowledge but also improves the diversity of negative samples in the
contrastive loss. Moreover, we propose multi-modal knowledge distillation
between images and texts to align the instance-wise prediction between old and
new models. We incrementally pre-train our model on both the instance and class
incremental splits of the Conceptual Caption dataset, and evaluate the model on
zero-shot image classification and image-text retrieval tasks. Our method
consistently outperforms the existing baselines with a large margin, which
demonstrates its superiority. Notably, we realize an average performance boost
of $4.60\%$ on image-classification downstream datasets for the class
incremental split.
- Abstract(参考訳): 近年,視覚言語事前学習(VLP)が注目されている。
大量の画像テキストペアによって、コントラスト損失でトレーニングされたvlpモデルは、さまざまなタスク、特にダウンストリームデータセットのゼロショット一般化において、印象的なパフォーマンスを達成している。
しかし、実際的なアプリケーションでは、大量のデータはストリーミング形式で収集されるため、VLPモデルは入ってくるデータから新しい知識を継続的に統合し、学習知識を保持する必要がある。
本研究では,画像テキスト対データの逐次チャンクを用いたvlpモデルの学習に注目する。
このマルチモーダル連続学習環境における破滅的な忘れの問題に対処するために,まず,学習知識を良く保存するだけでなく,対照的な損失に負のサンプルの多様性を向上する,記憶中のトレーニング画像に条件付けられたハードネガティブテキストを生成する擬似テキストリプレイを導入する。
さらに,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
我々は,概念キャプションデータセットのインスタンス分割とクラス分割の両方でモデルを段階的に事前学習し,ゼロショット画像分類と画像テキスト検索タスクでモデルを評価する。
提案手法は,既存のベースラインを高いマージンで常に上回り,その優位性を示している。
特に、クラスインクリメンタルスプリットのイメージ分類ダウンストリームデータセットでの平均パフォーマンスが$4.60\%向上していることに気付きました。
関連論文リスト
- ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model [19.915033191502328]
この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。
ビジョン言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にする。
我々は,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の排除による余分なサンプルの供給と空洞の補充を行う。
論文 参考訳(メタデータ) (2024-08-20T14:27:03Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。