論文の概要: CoMP: Continual Multimodal Pre-training for Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2503.18931v1
- Date: Mon, 24 Mar 2025 17:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:22.774071
- Title: CoMP: Continual Multimodal Pre-training for Vision Foundation Models
- Title(参考訳): CoMP:ビジョンファウンデーションモデルのための連続的マルチモーダル事前トレーニング
- Authors: Yitong Chen, Lingchen Meng, Wujian Peng, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 我々は、VFM(Vision Foundation Models)をマルチモーダルな方法で継続的に事前訓練する。
我々は、慎重に設計されたマルチモーダル事前学習パイプラインであるCoMPを紹介する。
3段階の訓練により、VFMはマルチモーダル理解だけでなく、分類やセグメンテーションなどの下流タスクでも顕著な改善が達成される。
- 参考スコア(独自算出の注目度): 72.3323674291719
- License:
- Abstract: Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to support native resolution continual pre-training, and an Alignment Loss between visual and textual features through language prototypes to align multimodal representations. By three-stage training, our VFMs achieve remarkable improvements not only in multimodal understanding but also in other downstream tasks such as classification and segmentation. Remarkably, CoMP-SigLIP achieves scores of 66.7 on ChartQA and 75.9 on DocVQA with a 0.5B LLM, while maintaining an 87.4% accuracy on ImageNet-1K and a 49.5 mIoU on ADE20K under frozen chunk evaluation.
- Abstract(参考訳): 事前訓練されたビジョンファウンデーションモデル(VFM)は、幅広いアプリケーションに対して強力な視覚表現を提供する。
本稿では,VFMをマルチモーダルな方法で継続的に事前学習し,異なる大きさの視覚入力をシームレスに処理し,元の事前学習プロセスによらず,言語表現とより整合した視覚表現を生成する。
この目的のために、慎重に設計されたマルチモーダル事前学習パイプラインであるCoMPを紹介する。
CoMPは連続回転位置埋め込み(Continuous Rotary Position Embedding)を使用して、ネイティブ解像度の継続事前トレーニングをサポートし、言語プロトタイプによる視覚的特徴とテキスト的特徴のアライメントロスにより、マルチモーダル表現を整列させる。
3段階の訓練により、VFMはマルチモーダル理解だけでなく、分類やセグメンテーションなどの下流タスクでも顕著な改善が達成される。
注目すべきことに、CoMP-SigLIP は ChartQA で66.7、DocVQA で75.9、ImageNet-1K で87.4%、ADE20K で49.5 mIoU の精度を維持している。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding [49.218195440600354]
現在の画像ピラミッドは、複数の解像度を処理するために同じ大規模なモデルを使用しており、計算コストを大幅に上回っている。
我々はCOCO変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。
PIIPは、事前訓練されたモデル(ViTまたはCNN)を、より小さなネットワークブランチによって高解像度の画像が処理され、計算コストと性能のバランスをとるマルチスケールイメージの処理に使用する。
論文 参考訳(メタデータ) (2025-01-14T01:57:41Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z) - MVP: Multimodality-guided Visual Pre-training [215.11351064601303]
マスク付き画像モデリング(MIM)は,視覚前訓練において有望な方向となっている。
本稿では、他のモダリティからのガイダンスを導入し、このような付加的な知識が視覚前訓練に顕著な効果をもたらすことを検証する。
提案手法はMultimodality-guided Visual Pre-training (MVP) と名付けられ,トークン化ツールをCLIPのビジョンブランチに置き換える。
論文 参考訳(メタデータ) (2022-03-10T06:11:20Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。