論文の概要: Post-pre-training for Modality Alignment in Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2504.12717v1
- Date: Thu, 17 Apr 2025 07:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:39:22.875934
- Title: Post-pre-training for Modality Alignment in Vision-Language Foundation Models
- Title(参考訳): 視覚・言語基礎モデルにおけるモダリティアライメントの事前学習
- Authors: Shin'ya Yamaguchi, Dewei Feng, Sekitoshi Kanai, Kazuki Adachi, Daiki Chijiwa,
- Abstract要約: 本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
- 参考スコア(独自算出の注目度): 12.110530026601968
- License:
- Abstract: Contrastive language image pre-training (CLIP) is an essential component of building modern vision-language foundation models. While CLIP demonstrates remarkable zero-shot performance on downstream tasks, the multi-modal feature spaces still suffer from a modality gap, which is a gap between image and text feature clusters and limits downstream task performance. Although existing works attempt to address the modality gap by modifying pre-training or fine-tuning, they struggle with heavy training costs with large datasets or degradations of zero-shot performance. This paper presents CLIP-Refine, a post-pre-training method for CLIP models at a phase between pre-training and fine-tuning. CLIP-Refine aims to align the feature space with 1 epoch training on small image-text datasets without zero-shot performance degradations. To this end, we introduce two techniques: random feature alignment (RaFA) and hybrid contrastive-distillation (HyCD). RaFA aligns the image and text features to follow a shared prior distribution by minimizing the distance to random reference vectors sampled from the prior. HyCD updates the model with hybrid soft labels generated by combining ground-truth image-text pair labels and outputs from the pre-trained CLIP model. This contributes to achieving both maintaining the past knowledge and learning new knowledge to align features. Our extensive experiments with multiple classification and retrieval tasks show that CLIP-Refine succeeds in mitigating the modality gap and improving the zero-shot performance.
- Abstract(参考訳): コントラスト言語画像事前学習(CLIP)は、現代の視覚言語基盤モデルを構築する上で欠かせない要素である。
CLIPは下流タスクで顕著なゼロショットパフォーマンスを示すが、マルチモーダル機能空間は依然としてモダリティギャップに悩まされており、画像とテキスト機能クラスタ間のギャップがあり、下流タスクのパフォーマンスが制限されている。
既存の研究は、事前トレーニングや微調整によってモダリティギャップに対処しようとするが、大規模なデータセットやゼロショット性能の劣化による重いトレーニングコストに苦慮している。
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
CLIP-Refineは、ゼロショットパフォーマンスの劣化を伴わない、小さな画像テキストデータセットでの1エポックトレーニングと機能空間の整合性を目指している。
この目的のために、ランダム特徴アライメント(RaFA)とハイブリッドコントラスト蒸留(HyCD)の2つの手法を導入する。
RaFAは、画像とテキストの特徴を、前者からサンプリングされたランダムな参照ベクトルまでの距離を最小にすることで、共有された事前分布に従うように調整する。
HyCDは、事前訓練されたCLIPモデルから画像とテキストのペアのラベルと出力を組み合わせたハイブリッドなソフトラベルでモデルを更新する。
このことは、過去の知識を維持することと、機能を調整するために新しい知識を学ぶことの両方に寄与します。
複数の分類・検索タスクによる広範な実験により,CLIP-Refineはモダリティギャップを緩和し,ゼロショット性能を向上させることに成功した。
関連論文リスト
- Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。