論文の概要: Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying
- arxiv url: http://arxiv.org/abs/2506.02020v1
- Date: Wed, 28 May 2025 11:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.344695
- Title: Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying
- Title(参考訳): 明示的硬度負勾配増幅によるマルチモーダル埋め込み学習の改善
- Authors: Youze Xue, Dian Li, Gang Liu,
- Abstract要約: コアコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
本研究では,クエリ,正,負のサンプルに対する情報NCE損失の勾配を詳細に解析する。
そこで本研究では, 強陰性サンプルに関連する勾配を明示的に増幅し, より識別的な埋め込みの学習を促すことを提案する。
- 参考スコア(独自算出の注目度): 7.9925771591348065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rapid advancement of multi-modal large language models (MLLMs) in recent years, the foundational Contrastive Language-Image Pretraining (CLIP) framework has been successfully extended to MLLMs, enabling more powerful and universal multi-modal embeddings for a wide range of retrieval tasks. Despite these developments, the core contrastive learning paradigm remains largely unchanged from CLIP-style models to MLLMs. Within this framework, the effective mining of hard negative samples continues to be a critical factor for enhancing performance. Prior works have introduced both offline and online strategies for hard negative mining to improve the efficiency of contrastive learning. While these approaches have led to improved multi-modal embeddings, the specific contribution of each hard negative sample to the learning process has not been thoroughly investigated. In this work, we conduct a detailed analysis of the gradients of the info-NCE loss with respect to the query, positive, and negative samples, elucidating the role of hard negatives in updating model parameters. Building upon this analysis, we propose to explicitly amplify the gradients associated with hard negative samples, thereby encouraging the model to learn more discriminative embeddings. Our multi-modal embedding model, trained with the proposed Explicit Gradient Amplifier and based on the LLaVA-OneVision-7B architecture, achieves state-of-the-art performance on the MMEB benchmark compared to previous methods utilizing the same MLLM backbone. Furthermore, when integrated with our self-developed MLLM, QQMM, our approach attains the top rank on the MMEB leaderboard. Code and models are released on https://github.com/QQ-MM/QQMM-embed.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル(MLLM)の急速な進歩により、基盤となるContrastive Language- Image Pretraining(CLIP)フレームワークがMLLMに拡張され、より強力で汎用的なマルチモーダル埋め込みが幅広い検索タスクに実現されている。
これらの発展にもかかわらず、中核となるコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
この枠組みの中では、強い負のサンプルを効果的に採掘することが、性能を高める重要な要因であり続けている。
従来の研究は、対照的な学習の効率を改善するために、オフラインとオンラインの両方に、厳しいネガティブなマイニングの戦略を導入してきた。
これらの手法は, マルチモーダル埋め込みの改善につながっているが, 学習過程に対する各ハードネガティブサンプルの具体的な寄与は十分に研究されていない。
本研究では,質問文,肯定的,否定的なサンプルに対する情報NCE損失の勾配を詳細に分析し,モデルパラメータの更新における強陰性の役割を明らかにする。
この分析に基づいて、強陰性サンプルに関連する勾配を明示的に増幅し、より差別的な埋め込みを学習するようモデルに促すことを提案する。
提案したExplicit Gradient Amplifierで学習し,LLaVA-OneVision-7Bアーキテクチャに基づくマルチモーダル埋め込みモデルは,従来のMLLMバックボーンを用いた手法と比較して,MMEBベンチマークの最先端性能を実現する。
さらに,自己開発型MLLM,QQMMと統合することで,MMEBリーダーボードの上位に到達した。
コードとモデルはhttps://github.com/QQ-MM/QQMM-embed.comで公開されている。
関連論文リスト
- LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。
本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。
公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文 参考訳(メタデータ) (2025-03-19T18:10:12Z) - Multi-Objective Large Language Model Unlearning [3.372396620898397]
グラディエント・アセント(GA)は、対象データ上のモデルの予測確率を減少させるプロアクティブな方法である。
本稿では,多目的大規模言語モデル学習(MOLLM)アルゴリズムを提案する。
実験の結果,MLLM が SOTA GA をベースとした LLM アンラーニング法よりも非ラーニング効果とモデルユーティリティ保存の点で優れていたことが確認された。
論文 参考訳(メタデータ) (2024-12-29T09:35:56Z) - Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。