論文の概要: Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization
- arxiv url: http://arxiv.org/abs/2511.01588v1
- Date: Mon, 03 Nov 2025 13:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.280885
- Title: Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization
- Title(参考訳): 相互情報最小化下での並列MLLM埋め込み
- Authors: Zhicheng Wang, Chen Ju, Xu Chen, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Ying Chen, Zhiguo Cao,
- Abstract要約: マルチモーダル埋め込み学習のための並列デカップリングフレームワーク(PDF)を1つ導入する。
PDFでは、異なる学習可能なプレフィックスで共有MLLMバックボーンを条件付けして、1つの入力に対して複数の並列パスをロールアウトする。
複数のMLLMバックボーン上でPDFをインスタンス化し,その効果をMMEBベンチマークで証明する。
- 参考スコア(独自算出の注目度): 35.43577499735611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding models are a cornerstone of modern AI. Driven by Multimodal Large Language Models (MLLMs), they have made great progress in architecture and data curation, while the holistic paradigm is still limited to SSC, i.e., single input, singular embedding, contrastive supervision, which collapses rich, multifaceted inputs into monolithic embeddings and fails to fully exploit MLLM capabilities. In this paper, we tailor one Parallel Decoupling Framework (PDF) for multimodal embedding learning, by utilizing the proprietary steerability of MLLMs, i.e., their ability to flexibly generate quite differentiated response under explicit instructions. Concretely, PDF conditions a shared MLLM backbone on distinct, learnable prefixes to roll out multiple parallel paths for one input, then relies on these paths to obtain parallel embeddings. To promote full parallel diversity, we employ Mutual Information Minimization (MIM) as an explicit constraint, coupled with per-path contrastive supervision to maintain semantic alignment. Such dual-objectives force PDF to yield robust semantic coverage and a generalizable embedding space. Ultimately, the remarkable embedding space are accessible at inference via one single forward pass, incurring negligible computational overhead. We instantiate PDF on multiple MLLM backbones and prove its effectiveness on MMEB benchmark. Significant gains are consistently achieved across various resolutions and model sizes, e.g., boosting the VLM2Vec-LLaVA-1.6-LR model by a remarkable +8.9% (7B), while the VLM2Vec-Qwen2VL models by +4.2% (2B) and +3.1% (7B). In terms of efficiency, our 2B model surpasses its baseline by +2.6% using only half the computational budget.
- Abstract(参考訳): 埋め込みモデルは、現代のAIの土台だ。
MLLM(Multimodal Large Language Models)によって駆動され、アーキテクチャとデータキュレーションにおいて大きな進歩を遂げているが、全体的なパラダイムはまだSSC(シングルインプット、単体埋め込み、コントラスト管理)に限られており、リッチで多面的な入力をモノリシックな埋め込みに分解し、MLLMの機能を完全に活用できない。
本稿では,マルチモーダル埋め込み学習のための並列デカップリングフレームワーク(PDF)を,MLLMの独自ステアビリティ,すなわち明示的な指示の下で柔軟に微分された応答を生成する能力を活用して調整する。
具体的には、PDFは、異なる学習可能なプレフィックスで共有MLLMバックボーンを条件付けして、1つの入力に対して複数の並列パスをロールアウトし、その後、これらのパスに依存して並列埋め込みを得る。
完全並列化を促進するために,相互情報最小化(MIM)を明示的な制約として用い,意味的アライメントを維持するためにパスごとのコントラクティブな監督と組み合わせた。
そのような双対対象はPDFに堅牢なセマンティックカバレッジと一般化可能な埋め込み空間を与えるよう強制する。
最終的に、顕著な埋め込み空間は、1つの前方通過を通して推論でアクセスでき、無視できない計算オーバーヘッドを引き起こす。
複数のMLLMバックボーン上でPDFをインスタンス化し,その効果をMMEBベンチマークで証明する。
VLM2Vec-LLaVA-1.6-LRモデルは8.9% (7B)、VLM2Vec-Qwen2VLモデルは4.2% (2B)、+3.1% (7B)である。
効率の面では、我々の2Bモデルは計算予算の半分しか使わず、ベースラインを+2.6%超える。
関連論文リスト
- HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - OmniBridge: Unified Multimodal Understanding, Generation, and Retrieval via Latent Space Alignment [79.98946571424607]
我々は,統一アーキテクチャ内での視覚言語理解,生成,検索をサポートする統一フレームワークであるOmniBridgeを提案する。
タスク干渉の課題に対処するために,2段階の非結合型トレーニング戦略を提案する。
実験によると、OmniBridgeは3つのタスクすべてで、競争力や最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-23T13:57:55Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。