論文の概要: Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
- arxiv url: http://arxiv.org/abs/2503.04229v1
- Date: Thu, 06 Mar 2025 09:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:54.366980
- Title: Synthetic Data is an Elegant GIFT for Continual Vision-Language Models
- Title(参考訳): Synthetic Dataは連続視覚言語モデルのためのエレガントGIFT
- Authors: Bin Wu, Wuxuan Shi, Jinqiao Wang, Mang Ye,
- Abstract要約: GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
- 参考スコア(独自算出の注目度): 52.343627275005026
- License:
- Abstract: Pre-trained Vision-Language Models (VLMs) require Continual Learning (CL) to efficiently update their knowledge and adapt to various downstream tasks without retraining from scratch. However, for VLMs, in addition to the loss of knowledge previously learned from downstream tasks, pre-training knowledge is also corrupted during continual fine-tuning. This issue is exacerbated by the unavailability of original pre-training data, leaving VLM's generalization ability degrading. In this paper, we propose GIFT, a novel continual fine-tuning approach that utilizes synthetic data to overcome catastrophic forgetting in VLMs. Taking advantage of recent advances in text-to-image synthesis, we employ a pre-trained diffusion model to recreate both pre-training and learned downstream task data. In this way, the VLM can revisit previous knowledge through distillation on matching diffusion-generated images and corresponding text prompts. Leveraging the broad distribution and high alignment between synthetic image-text pairs in VLM's feature space, we propose a contrastive distillation loss along with an image-text alignment constraint. To further combat in-distribution overfitting and enhance distillation performance with limited amount of generated data, we incorporate adaptive weight consolidation, utilizing Fisher information from these synthetic image-text pairs and achieving a better stability-plasticity balance. Extensive experiments demonstrate that our method consistently outperforms previous state-of-the-art approaches across various settings.
- Abstract(参考訳): 事前学習されたビジョンランゲージモデル(VLM)は、継続学習(CL)に知識を効率よく更新し、スクラッチから再学習することなく様々な下流タスクに適応させるよう要求する。
しかし、VLMでは、下流のタスクから学習した知識の喪失に加えて、学習前の知識も連続的な微調整中に劣化する。
この問題は、VLMの一般化能力が低下したまま、オリジナルの事前学習データの利用不能によってさらに悪化する。
本稿では,VLMにおける破滅的忘れを克服するために合成データを利用する,連続的な微調整手法であるGIFTを提案する。
近年のテキスト・ツー・イメージ合成の進歩を生かして、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いている。
このようにして、VLMは拡散生成画像と対応するテキストプロンプトを蒸留することで、以前の知識を再考することができる。
VLMの特徴空間における合成画像-テキスト対間の広帯域分布と高アライメントを利用して,画像-テキストアライメント制約とともに,コントラスト蒸留損失を提案する。
そこで我々は,これらの合成画像-テキストペアのフィッシャー情報を活用し,安定性と可塑性のバランスを向上し,分散オーバーフィッティングと蒸留性能の向上を図り,適応重畳み込みを取り入れた。
大規模な実験により,本手法は様々な設定における従来の最先端手法より一貫して優れていることが示された。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。