論文の概要: Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
- arxiv url: http://arxiv.org/abs/2602.05275v1
- Date: Thu, 05 Feb 2026 04:01:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.751749
- Title: Magic-MM-Embedding: Towards Visual-Token-Efficient Universal Multimodal Embedding with MLLMs
- Title(参考訳): Magic-MM-Embedding:MLLMを用いたビジュアルトーケン効率のユニバーサルマルチモーダル埋め込みを目指して
- Authors: Qi Li, Yanzhe Zhao, Yongxin Zhou, Yameng Wang, Yandong Yang, Yuanjia Zhou, Jue Wang, Zuojian Wang, Jinxiang Liu,
- Abstract要約: MLLM(Multimodal Large Language Models)は,マルチモーダル検索において非常に有望であることを示す。
しかし、それらの実用的な応用は、視覚的な入力から大量のトークンを処理することから生じる相当な計算コストによって妨げられることが多い。
汎用マルチモーダル埋め込みにおいて,高効率および最先端性能を実現する一連の新しいモデルであるMagic-MM-Embeddingを提案する。
- 参考スコア(独自算出の注目度): 10.443777669301983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown immense promise in universal multimodal retrieval, which aims to find relevant items of various modalities for a given query. But their practical application is often hindered by the substantial computational cost incurred from processing a large number of tokens from visual inputs. In this paper, we propose Magic-MM-Embedding, a series of novel models that achieve both high efficiency and state-of-the-art performance in universal multimodal embedding. Our approach is built on two synergistic pillars: (1) a highly efficient MLLM architecture incorporating visual token compression to drastically reduce inference latency and memory footprint, and (2) a multi-stage progressive training strategy designed to not only recover but significantly boost performance. This coarse-to-fine training paradigm begins with extensive continue pretraining to restore multimodal understanding and generation capabilities, progresses to large-scale contrastive pretraining and hard negative mining to enhance discriminative power, and culminates in a task-aware fine-tuning stage guided by an MLLM-as-a-Judge for precise data curation. Comprehensive experiments show that our model outperforms existing methods by a large margin while being more inference-efficient.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、与えられたクエリに対して様々なモダリティの関連項目を見つけることを目的とした、普遍的なマルチモーダル検索において大きな可能性を示している。
しかし、それらの実用的な応用は、視覚的な入力から大量のトークンを処理することから生じる相当な計算コストによって妨げられることが多い。
本稿では, 汎用マルチモーダル埋め込みにおいて, 高効率および最先端性能を実現する一連の新しいモデルであるMagic-MM-Embeddingを提案する。
提案手法は,(1)予測遅延とメモリフットプリントを大幅に削減するために,視覚トークン圧縮を取り入れた高効率なMLLMアーキテクチャと,(2)回復するだけでなく,性能を大幅に向上する多段階のプログレッシブトレーニング戦略の2つの柱上に構築されている。
この粗大な訓練パラダイムは、マルチモーダルな理解と生成能力を回復するための広範囲な事前訓練から始まり、大規模で対照的な事前訓練と強硬な負のマイニングに進み、識別力を高め、正確なデータキュレーションのためにMLLM-as-a-Judgeによってガイドされたタスク対応の微調整段階において頂点に達する。
包括的実験により、我々のモデルはより推論効率が高く、既存の手法よりも大きなマージンで優れていることが示された。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LFTR: Learning-Free Token Reduction for Multimodal Large Language Models [3.368594680297987]
MLLM(Multimodal Large Language Models)用に設計されたLFTR(Learning-free token reduction)手法を提案する。
視覚表現の冗長性に乗じて,MLLMの一般的な推論性能を維持しつつトークンを効果的に削減する。
その結果、LFTRは最大16倍の視覚トークンの削減を実現し、メインストリームの視覚質問応答ベンチマークの性能を維持したり、向上させることができた。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - Weakly Supervised Temporal Action Localization via Dual-Prior Collaborative Learning Guided by Multimodal Large Language Models [33.37379526356273]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。