論文の概要: Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding
- arxiv url: http://arxiv.org/abs/2511.08480v1
- Date: Wed, 12 Nov 2025 02:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.833066
- Title: Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding
- Title(参考訳): 圧縮とマッチング:マルチモーダル埋め込みのための効率的な事前学習パラダイム
- Authors: Da Li, Yuxiao Luo, Keping Bi, Jiafeng Guo, Wei Yuan, Biao Yang, Yan Wang, Fan Yang, Tingting Gao, Guorui Zhou,
- Abstract要約: 視覚言語モデルは、伝達可能なセマンティック埋め込みを取得することでマルチモーダル表現学習を進める。
コントラスト学習のウォームアップ段階として機能する圧縮プレトレーニングフェーズであるCoMaを提案する。
- 参考スコア(独自算出の注目度): 53.18433310890516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models advance multimodal representation learning by acquiring transferable semantic embeddings, thereby substantially enhancing performance across a range of vision-language tasks, including cross-modal retrieval, clustering, and classification. An effective embedding is expected to comprehensively preserve the semantic content of the input while simultaneously emphasizing features that are discriminative for downstream tasks. Recent approaches demonstrate that VLMs can be adapted into competitive embedding models via large-scale contrastive learning, enabling the simultaneous optimization of two complementary objectives. We argue that the two aforementioned objectives can be decoupled: a comprehensive understanding of the input facilitates the embedding model in achieving superior performance in downstream tasks via contrastive learning. In this paper, we propose CoMa, a compressed pre-training phase, which serves as a warm-up stage for contrastive learning. Experiments demonstrate that with only a small amount of pre-training data, we can transform a VLM into a competitive embedding model. CoMa achieves new state-of-the-art results among VLMs of comparable size on the MMEB, realizing optimization in both efficiency and effectiveness.
- Abstract(参考訳): 視覚言語モデルは、伝達可能なセマンティック埋め込みを取得してマルチモーダル表現学習を進め、これにより、クロスモーダル検索、クラスタリング、分類を含む様々な視覚言語タスクのパフォーマンスを大幅に向上させる。
効果的な埋め込みは、下流タスクで識別可能な特徴を同時に強調しながら、入力のセマンティックな内容を包括的に保存することが期待される。
近年のアプローチでは、VLMを大規模コントラスト学習により競合埋め込みモデルに適応させることで、2つの相補的な目的を同時に最適化できることが示されている。
インプットの包括的理解は、コントラスト学習による下流タスクにおける優れたパフォーマンスを達成するために、埋め込みモデルを促進する。
本稿では、コントラスト学習のためのウォームアップ段階として機能する圧縮事前学習フェーズであるCoMaを提案する。
実験により、少量の事前学習データだけで、VLMを競合的な埋め込みモデルに変換することができることが示された。
CoMa は MMEB に匹敵する大きさの VLM で新たな最先端結果を実現し,効率と効率の両面での最適化を実現している。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Efficiently Integrate Large Language Models with Visual Perception: A Survey from the Training Paradigm Perspective [3.2418962303343863]
本稿では,トップカンファレンス,ジャーナル,高度に引用されたArxiv論文から34の視覚大言語モデル(VLLM)を分類し,レビューする。
まず,大規模言語モデルとパラメータ効率の学習手法のアーキテクチャを導入し,視覚エンコーダとモダリティエンコーダの包括的分類法について議論した。
論文 参考訳(メタデータ) (2025-02-03T17:01:59Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Artificial-Spiking Hierarchical Networks for Vision-Language
Representation Learning [16.902924543372713]
最先端の手法は、大規模データセットの事前トレーニングによって、素晴らしいパフォーマンスを達成する。
本稿では,新しい視覚的セマンティックモジュールを導入することで,マルチモーダルアライメントのための効率的なフレームワークを提案する。
実験の結果、提案されたASH-Netsは競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-18T10:40:25Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。