論文の概要: Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality
- arxiv url: http://arxiv.org/abs/2603.01471v1
- Date: Mon, 02 Mar 2026 05:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.7003
- Title: Reconstructing Content via Collaborative Attention to Improve Multimodal Embedding Quality
- Title(参考訳): 協調的注意によるコンテンツ再構成によるマルチモーダルな埋め込み品質向上
- Authors: Jiahan Chen, Da Li, Hengran Zhang, Yinqiong Cai, Lixin Su, Jiafeng Guo, Daiting Shi, Dawei Yin, Keping Bi,
- Abstract要約: CoCoAは、マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムである。
EOSをベースとした再構築タスクを導入し、対応するEOS>埋め込みからの入力を再構成するようモデルに促す。
MMEB-V1の実験では、Qwen2-VLとQwen2.5-VLをベースにしたCoCoAが埋め込み品質を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 59.651410243721045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal embedding models, rooted in multimodal large language models (MLLMs), have yielded significant performance improvements across diverse tasks such as retrieval and classification. However, most existing approaches rely heavily on large-scale contrastive learning, with limited exploration of how the architectural and training paradigms of MLLMs affect embedding quality. While effective for generation, the causal attention and next-token prediction paradigm of MLLMs does not explicitly encourage the formation of globally compact representations, limiting their effectiveness as multimodal embedding backbones. To address this, we propose CoCoA, a Content reconstruction pre-training paradigm based on Collaborative Attention for multimodal embedding optimization. Specifically, we restructure the attention flow and introduce an EOS-based reconstruction task, encouraging the model to reconstruct input from the corresponding <EOS> embeddings. This drives the multimodal model to compress the semantic information of the input into the <EOS> token, laying the foundations for subsequent contrastive learning. Extensive experiments on MMEB-V1 demonstrate that CoCoA built upon Qwen2-VL and Qwen2.5-VL significantly improves embedding quality. Results validate that content reconstruction serves as an effective strategy to maximize the value of existing data, enabling multimodal embedding models generate compact and informative representations, raising their performance ceiling.
- Abstract(参考訳): MLLM(Multimodal large language model)に根ざしたマルチモーダル埋め込みモデルは,検索や分類といった多様なタスクにおいて,大幅な性能向上を実現している。
しかし、既存のほとんどのアプローチは大規模なコントラスト学習に大きく依存しており、MLLMのアーキテクチャおよびトレーニングパラダイムが組込み品質にどのように影響するかを限定的に調査している。
MLLMの因果的注意と次点的予測パラダイムは、生成に有効であるが、グローバルなコンパクトな表現の形成を明示的に促進せず、マルチモーダルな埋め込みバックボーンとしての有効性を制限している。
そこで本研究では,マルチモーダル埋め込み最適化のための協調注意に基づくコンテンツ再構成事前学習パラダイムであるCoCoAを提案する。
具体的には、注意の流れを再構築し、EOSベースの再構築タスクを導入し、対応する<EOS>埋め込みからの入力を再構成するようモデルに促す。
これにより、マルチモーダルモデルが入力の意味情報を<EOS>トークンに圧縮し、その後のコントラスト学習の基礎となる。
MMEB-V1の大規模な実験により、Qwen2-VLおよびQwen2.5-VL上に構築されたCoCoAは、埋め込み品質を著しく改善することが示された。
その結果、コンテンツ再構成は既存のデータの価値を最大化するための効果的な戦略であり、マルチモーダル埋め込みモデルがコンパクトで情報に富んだ表現を生成し、パフォーマンスの天井を高くすることを示す。
関連論文リスト
- Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs [10.443777669301983]
MLLM(Multimodal Large Language Models)は,マルチモーダル検索において非常に有望であることを示す。
しかし、それらの実用的な応用は、視覚的な入力から大量のトークンを処理することから生じる相当な計算コストによって妨げられることが多い。
汎用マルチモーダル埋め込みにおいて,高効率および最先端性能を実現する一連の新しいモデルであるMagic-MM-Embeddingを提案する。
論文 参考訳(メタデータ) (2026-02-05T04:01:01Z) - ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction [55.21514454560188]
統一マルチモーダルモデルでは、視覚の粒度モデル(VLM)と拡散モデルを組み合わせることで、視覚生成を著しく改善する。
既存の手法は、表現の差が大きいため、十分な相互作用と柔軟な実装のバランスをとるのに苦労する。
我々は,textbfParallel方式でVLMの変形層から特徴を抽出し,包括的情報インタラクションを実現するtextbfParaUniを提案する。
論文 参考訳(メタデータ) (2025-12-05T04:41:57Z) - Multi-Aspect Cross-modal Quantization for Generative Recommendation [27.92632297542123]
生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。
まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。
また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
論文 参考訳(メタデータ) (2025-11-19T04:55:14Z) - Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding [53.18433310890516]
視覚言語モデルは、伝達可能なセマンティック埋め込みを取得することでマルチモーダル表現学習を進める。
コントラスト学習のウォームアップ段階として機能する圧縮プレトレーニングフェーズであるCoMaを提案する。
論文 参考訳(メタデータ) (2025-11-11T17:23:02Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。