論文の概要: From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model
- arxiv url: http://arxiv.org/abs/2508.00955v1
- Date: Fri, 01 Aug 2025 07:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 20:32:48.682564
- Title: From Generator to Embedder: Harnessing Innate Abilities of Multimodal LLMs via Building Zero-Shot Discriminative Embedding Model
- Title(参考訳): 発電機から埋め込み機へ:ゼロショット識別埋め込みモデルの構築によるマルチモーダルLLMの自然能力の調和
- Authors: Yeong-Joon Ju, Seong-Whan Lee,
- Abstract要約: MLLM(Multimodal Large Language Models)は、汎用的な埋め込みタスクのための有望なソリューションとして登場した。
しかし、その生成的性質を差別的表現学習に適用することは、依然として重要な課題である。
本稿では,2つの相乗的成分を中心としてギャップを埋める,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.879983760203256
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have emerged as a promising solution for universal embedding tasks, yet adapting their generative nature for discriminative representation learning remains a significant challenge. The dominant paradigm of large-scale contrastive pre-training suffers from critical inefficiencies, including prohibitive computational costs and a failure to leverage the intrinsic, instruction-following capabilities of MLLMs. To overcome these limitations, we propose an efficient framework for universal multimodal embeddings, which bridges this gap by centering on two synergistic components. First, our hierarchical embedding prompt template employs a two-level instruction architecture that forces the model to produce discriminative representations. Building on this strong foundation, our second component, self-aware hard negative sampling, redefines the fine-tuning process by leveraging the model's own understanding to efficiently mine challenging negatives while actively filtering out potential false negatives. Our comprehensive experiments show that our hierarchical prompt achieves zero-shot performance competitive with contrastively trained baselines and enhances the fine-tuning process by lifting a simple in-batch negative baseline by 4.8 points on the MMEB benchmark. We further boost the performance via our self-aware hard negative sampling, achieving the state-of-the-art performance without the contrative pre-training. Our work presents an effective and efficient pathway to adapt MLLMs for universal embedding tasks, significantly reducing training time.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、普遍的な埋め込みタスクのための有望なソリューションとして登場したが、その生成的性質を識別的表現学習に適用することは大きな課題である。
大規模コントラスト学習の主流のパラダイムは、計算コストの禁止や、MLLMの本質的、命令追従能力の活用に失敗したことなど、重要な非効率に悩まされている。
これらの制約を克服するために,このギャップを2つの相乗的成分に集中させることにより橋渡しする,普遍的マルチモーダル埋め込みのための効率的なフレームワークを提案する。
まず、階層的な埋め込みプロンプトテンプレートでは、モデルに識別表現を強制する2段階の命令アーキテクチャを採用している。
この強力な基盤の上に構築する第2のコンポーネントである自己認識型ハードネガティブサンプリングは、モデル自身の理解を活用して微調整プロセスを再定義し、挑戦的なネガティブを効果的にマイニングし、潜在的な偽陰性を積極的にフィルタリングする。
総合的な実験により,我々の階層的プロンプトは対照的に訓練されたベースラインとゼロショット性能を競い合うことができ,MMEBベンチマークの4.8ポイントの単純なバッチ内負ベースラインを持ち上げることにより微調整プロセスが向上することが示された。
さらに, 自己認識型ハードネガティブサンプリングによる性能向上を行い, コントラスト前訓練を行なわず, 最先端のパフォーマンスを実現した。
本研究は,MLLMを汎用的な埋め込みタスクに適用するための効果的かつ効率的な経路を示し,トレーニング時間を著しく短縮する。
関連論文リスト
- PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying [7.9925771591348065]
コアコントラスト学習パラダイムは、CLIPスタイルのモデルからMLLMに大きく変化しない。
本研究では,クエリ,正,負のサンプルに対する情報NCE損失の勾配を詳細に解析する。
そこで本研究では, 強陰性サンプルに関連する勾配を明示的に増幅し, より識別的な埋め込みの学習を促すことを提案する。
論文 参考訳(メタデータ) (2025-05-28T11:18:19Z) - Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs [28.20725794099928]
下流の多様なタスクに対する差別表現を学習する新しいフレームワークであるUniMEを紹介する。
最初の段階では、強力なLLMベースの教師モデルからテキスト識別的知識蒸留を行う。
第2段階では、識別表現学習をさらに進めるために、強陰性強化命令チューニングを導入する。
論文 参考訳(メタデータ) (2025-04-24T10:51:52Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Enhancing LLM Robustness to Perturbed Instructions: An Empirical Study [8.827173113748701]
ダウンストリーム性能を著しく低下させるタスク特化命令の文字・単語レベルの編集について検討した。
平均的に、自己否定は、代替戦略よりも大幅に高いパフォーマンス向上を達成することが分かっています。
論文 参考訳(メタデータ) (2025-04-03T16:17:56Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Pre-training Language Model as a Multi-perspective Course Learner [103.17674402415582]
本研究では,サンプル効率のよい事前学習のためのマルチパースペクティブ・コース・ラーニング(MCL)手法を提案する。
本研究では,3つの自己超越コースが,「綱引き」力学の固有の欠陥を軽減するように設計されている。
本手法は,GLUEおよびSQuAD 2.0ベンチマークにおいて,ELECTRAの平均性能をそれぞれ2.8%,絶対点を3.2%向上させる。
論文 参考訳(メタデータ) (2023-05-06T09:02:10Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。