論文の概要: UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
- arxiv url: http://arxiv.org/abs/2510.13515v1
- Date: Wed, 15 Oct 2025 13:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.675194
- Title: UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
- Title(参考訳): UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning
- Authors: Tiancheng Gu, Kaicheng Yang, Kaichen Zhang, Xiang An, Ziyong Feng, Yueyi Zhang, Weidong Cai, Jiankang Deng, Lidong Bing,
- Abstract要約: 本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
- 参考スコア(独自算出の注目度): 101.62386137855704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal multimodal embedding models are foundational to various tasks. Existing approaches typically employ in-batch negative mining by measuring the similarity of query-candidate pairs. However, these methods often struggle to capture subtle semantic differences among candidates and lack diversity in negative samples. Moreover, the embeddings exhibit limited discriminative ability in distinguishing false and hard negatives. In this paper, we leverage the advanced understanding capabilities of MLLMs to enhance representation learning and present a novel Universal Multimodal Embedding (UniME-V2) model. Our approach first constructs a potential hard negative set through global retrieval. We then introduce the MLLM-as-a-Judge mechanism, which utilizes MLLMs to assess the semantic alignment of query-candidate pairs and generate soft semantic matching scores. These scores serve as a foundation for hard negative mining, mitigating the impact of false negatives and enabling the identification of diverse, high-quality hard negatives. Furthermore, the semantic matching scores are used as soft labels to mitigate the rigid one-to-one mapping constraint. By aligning the similarity matrix with the soft semantic matching score matrix, the model learns semantic distinctions among candidates, significantly enhancing its discriminative capacity. To further improve performance, we propose UniME-V2-Reranker, a reranking model trained on our mined hard negatives through a joint pairwise and listwise optimization approach. We conduct comprehensive experiments on the MMEB benchmark and multiple retrieval tasks, demonstrating that our method achieves state-of-the-art performance on average across all tasks.
- Abstract(参考訳): ユニバーサルマルチモーダル埋め込みモデルは様々なタスクの基礎となる。
既存のアプローチでは、クエリ候補対の類似性を測定することによって、通常、バッチ内の負のマイニングを用いる。
しかしながら、これらの手法は、候補間の微妙な意味的差異を捉え、負のサンプルの多様性を欠くのにしばしば苦労する。
さらに, 埋め込みは, 偽陰性と強陰性を識別する識別能力に限界がある。
本稿では,MLLMの高度な理解機能を活用して表現学習を強化し,新しいユニバーサル・マルチモーダル・エンベディング(UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価し、ソフトなセマンティックマッチングスコアを生成するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
さらに、厳密な1対1のマッピング制約を軽減するために、セマンティックマッチングスコアをソフトラベルとして使用する。
類似度行列をソフトな意味マッチングスコア行列と整合させることにより、モデルは候補間の意味的区別を学習し、識別能力を大幅に向上させる。
提案するUniME-V2-Rerankerは,共同最適化手法とリストワイド最適化手法により,採掘したハードネガに基づいてトレーニングしたリグレードモデルである。
我々はMMEBベンチマークと複数の検索タスクに関する総合的な実験を行い、この手法が全てのタスクにおいて平均して最先端のパフォーマンスを達成できることを実証した。
関連論文リスト
- From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model [29.879983760203256]
MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。
しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。
本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:31:24Z) - Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings [2.1874189959020427]
大規模言語モデル(LLM)は、家族分類を支援するマルウェア記述を生成する可能性を提供する。
硬質負試料のターゲット選択によりLCM埋め込みを改良するコントラスト微調整法(CFT)を提案する。
提案手法は, 高い相似性陰性度を組み合わせ, 識別力と中層性陰性度を高め, 埋め込み多様性を高める。
論文 参考訳(メタデータ) (2025-04-25T02:41:45Z) - Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs [28.20725794099928]
下流の多様なタスクに対する差別表現を学習する新しいフレームワークであるUniMEを紹介する。
最初の段階では、強力なLLMベースの教師モデルからテキスト識別的知識蒸留を行う。
第2段階では、識別表現学習をさらに進めるために、強陰性強化命令チューニングを導入する。
論文 参考訳(メタデータ) (2025-04-24T10:51:52Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Solving Inefficiency of Self-supervised Representation Learning [87.30876679780532]
既存のコントラスト学習法は、非常に低い学習効率に苦しむ。
アンダークラスタリングとオーバークラスタリングの問題は、学習効率の大きな障害である。
中央三重項損失を用いた新しい自己監督学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-18T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。