論文の概要: Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification
- arxiv url: http://arxiv.org/abs/2602.05729v1
- Date: Thu, 05 Feb 2026 14:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.987047
- Title: Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification
- Title(参考訳): ハード負の増幅に適合するMLLM埋め込みに対する適応的グローバル・ファイングラインド型知覚融合法
- Authors: Lexiang Hu, Youze Xue, Dian Li, Gang Liu, Zhouchen Lin,
- Abstract要約: マルチモーダル埋め込みは、視覚と言語を整合させるブリッジとして機能する。
MLLM埋め込みのための適応的グローバルおよび微粒な知覚融合法を提案する。
AGFF-Embedは、総合的および微粒な理解において、最先端のパフォーマンスを包括的に達成する。
- 参考スコア(独自算出の注目度): 49.109117617514066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal embeddings serve as a bridge for aligning vision and language, with the two primary implementations -- CLIP-based and MLLM-based embedding models -- both limited to capturing only global semantic information. Although numerous studies have focused on fine-grained understanding, we observe that complex scenarios currently targeted by MLLM embeddings often involve a hybrid perceptual pattern of both global and fine-grained elements, thus necessitating a compatible fusion mechanism. In this paper, we propose Adaptive Global and Fine-grained perceptual Fusion for MLLM Embeddings (AGFF-Embed), a method that prompts the MLLM to generate multiple embeddings focusing on different dimensions of semantic information, which are then adaptively and smoothly aggregated. Furthermore, we adapt AGFF-Embed with the Explicit Gradient Amplification (EGA) technique to achieve in-batch hard negatives enhancement without requiring fine-grained editing of the dataset. Evaluation on the MMEB and MMVP-VLM benchmarks shows that AGFF-Embed comprehensively achieves state-of-the-art performance in both general and fine-grained understanding compared to other multimodal embedding models.
- Abstract(参考訳): マルチモーダルな埋め込みは、ビジョンと言語を整合させるブリッジとして機能し、CLIPベースとMLLMベースの埋め込みモデルという2つの主要な実装は、どちらもグローバルなセマンティック情報のみをキャプチャすることに限定されている。
多くの研究がきめ細かい理解に焦点を当てているが、MLLM埋め込みを対象とする複雑なシナリオは、大域的要素と微粒的要素の両方のハイブリッドな知覚パターンを伴っていることが多いため、互換性のある融合機構を必要とする。
本稿では,MLLM埋め込みのための適応的グローバルおよび微粒な知覚融合法(AGFF-Embed)を提案する。
さらに,AGFF-EmbedにExplicit Gradient Amplification (EGA)技術を適用し,データセットのきめ細かい編集を必要とせず,バッチ内でのハードネガの増大を実現する。
MMEB および MMVP-VLM ベンチマークによる評価の結果,AGFF-Embed は,他のマルチモーダル埋め込みモデルと比較して,総合的および微細な理解において,最先端の性能を総合的に達成している。
関連論文リスト
- From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion [91.35078719566472]
VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
論文 参考訳(メタデータ) (2026-01-15T18:59:10Z) - ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文 参考訳(メタデータ) (2025-11-24T16:28:49Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。