論文の概要: MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings
- arxiv url: http://arxiv.org/abs/2506.23115v1
- Date: Sun, 29 Jun 2025 06:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.724041
- Title: MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings
- Title(参考訳): MoCa: モダリティを意識した継続的事前トレーニングは、双方向のマルチモーダル埋め込みを改善する
- Authors: Haonan Chen, Hong Liu, Yuping Luo, Liang Wang, Nan Yang, Furu Wei, Zhicheng Dou,
- Abstract要約: MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 75.0617088717528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal embedding models, built upon causal Vision Language Models (VLMs), have shown promise in various tasks. However, current approaches face three key limitations: the use of causal attention in VLM backbones is suboptimal for embedding tasks; scalability issues due to reliance on high-quality labeled paired data for contrastive learning; and limited diversity in training objectives and data. To address these issues, we propose MoCa, a two-stage framework for transforming pre-trained VLMs into effective bidirectional multimodal embedding models. The first stage, Modality-aware Continual Pre-training, introduces a joint reconstruction objective that simultaneously denoises interleaved text and image inputs, enhancing bidirectional context-aware reasoning. The second stage, Heterogeneous Contrastive Fine-tuning, leverages diverse, semantically rich multimodal data beyond simple image-caption pairs to enhance generalization and alignment. Our method addresses the stated limitations by introducing bidirectional attention through continual pre-training, scaling effectively with massive unlabeled datasets via joint reconstruction objectives, and utilizing diverse multimodal data for enhanced representation robustness. Experiments demonstrate that MoCa consistently improves performance across MMEB and ViDoRe-v2 benchmarks, achieving new state-of-the-art results, and exhibits strong scalability with both model size and training data on MMEB.
- Abstract(参考訳): 因果的視覚言語モデル(VLM)に基づくマルチモーダル埋め込みモデルは,様々なタスクにおいて有望であることを示す。
しかしながら、現在のアプローチでは、VLMバックボーンにおける因果的注意の使用は、タスクの埋め込みに最適である、高品質なラベル付きペア付きデータによる対照的な学習への依存によるスケーラビリティの問題、訓練目標とデータの多様性の制限、という3つの重要な制限に直面している。
これらの問題に対処するために,事前学習されたVLMを効果的な双方向マルチモーダル埋め込みモデルに変換するための2段階フレームワークであるMoCaを提案する。
第1段階であるModality-Aware Continual Pre-Trainingでは、インターリーブテキストと画像入力を同時に識別し、双方向のコンテキスト認識推論を強化する、共同再建の目標が導入された。
第2段階であるヘテロジニアス・コントラスト・ファインチューニング(英語版)は、多種多様な意味的にリッチなマルチモーダルデータを単純なイメージ・キャプション・ペアを超えて活用し、一般化とアライメントを強化する。
提案手法は, 連続的な事前学習による双方向注意の導入, 共同再建目的による大規模未ラベルデータセットのスケーリング, 表現堅牢性向上のための多様なマルチモーダルデータの利用により, その限界に対処する。
実験によると、MoCaはMMEBとViDoRe-v2ベンチマークで一貫してパフォーマンスを改善し、新しい最先端の結果を実現し、MMEB上でのモデルサイズとトレーニングデータの両方で強力なスケーラビリティを示す。
関連論文リスト
- G$^{2}$D: Boosting Multimodal Learning with Gradient-Guided Distillation [0.7673339435080445]
本稿では, カスタマイズされた損失関数を持つマルチモーダルモデルを最適化する知識蒸留フレームワークであるGradient-Guided Distillation (G$2$D)を紹介する。
G$2$Dは、訓練中に弱いモダリティの重要度を増幅し、分類および回帰タスクにおける最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-06-26T17:37:36Z) - Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。