論文の概要: ReMatch: Boosting Representation through Matching for Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2511.19278v2
- Date: Wed, 26 Nov 2025 03:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.409253
- Title: ReMatch: Boosting Representation through Matching for Multimodal Retrieval
- Title(参考訳): ReMatch: マルチモーダル検索のためのマッチングによる表現強化
- Authors: Qianying Liu, Xiao Liang, Zhiqiang Zhang, Zhongfei Qing, Fengfan Zhou, Yibo Chen, Xu Tang, Yao Hu, Paul Henderson,
- Abstract要約: ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
- 参考スコア(独自算出の注目度): 29.610030065465793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ReMatch, a framework that leverages the generative strength of MLLMs for multimodal retrieval. Previous approaches treated an MLLM as a simple encoder, ignoring its generative nature, and under-utilising its compositional reasoning and world knowledge. We instead train the embedding MLLM end-to-end with a chat-style generative matching stage. The matching stage uses the same MLLM to autoregressively decide relevance from multi-view inputs, including both raw data and its own projected embeddings for each query and document. It provides instance-wise discrimination supervision that complements a standard contrastive loss, offering stronger gradients on hard negatives and preserving the compositional strengths of the original MLLM. To obtain semantically richer multimodal embeddings, we use multiple learnable tokens to augment each input, generating fine-grained contextual, mutually orthogonal embeddings with low inference cost. Leveraging our established high-performance baseline,we assemble the ideas mentioned above into a powerful training recipe and achieve a new state-of-the-art on the Massive Multimodal Embedding Benchmark (MMEB). Our experiments show particularly strong zero-shot generalization results on five datasets, highlighting the robustness and transferability of ReMatch.
- Abstract(参考訳): マルチモーダル検索にMLLMの生成強度を利用するフレームワークであるReMatchを提案する。
従来のアプローチではMLLMを単純なエンコーダとして扱い、生成性を無視し、構成的推論と世界的知識を過小評価していた。
代わりに、チャットスタイルの生成マッチングステージで、埋め込みMLLMをエンドツーエンドでトレーニングします。
マッチングステージは同じMLLMを使用して、クエリとドキュメント毎に、生データと独自のプロジェクテッド埋め込みの両方を含む、マルチビューインプットから自動的に関連性を決定する。
標準のコントラスト損失を補完し、強い負の勾配を強く提供し、元のMLLMの構成強度を保存する。
意味的にリッチなマルチモーダル埋め込みを実現するために、複数の学習可能なトークンを用いて各入力を拡大し、よりきめ細かな文脈的、相互直交的な埋め込みを推論コストの低い形で生成する。
確立したハイパフォーマンスベースラインを活用して、上記のアイデアを強力なトレーニングレシピにまとめ、Massive Multimodal Embedding Benchmark(MMEB)の新たな最先端を実現する。
実験の結果,ReMatchの頑健性や転送性に注目する5つのデータセットに対して,特に強いゼロショット一般化結果が得られた。
関連論文リスト
- Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - MCA: Modality Composition Awareness for Robust Composed Multimodal Retrieval [34.21875369884307]
MLLM(Multimodal large language model)は、入力を直接処理する統一エンコーダである。
フレキシブルで高度な一方で、従来のコントラスト学習で訓練された統一エンコーダは、モダリティのショートカットを学習しがちである。
この問題を軽減するためのモダリティ構成意識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-17T11:20:35Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - Empowering Large Language Model for Sequential Recommendation via Multimodal Embeddings and Semantic IDs [28.752042722391934]
シークエンシャルレコメンデーション(SR)は,ユーザの動的関心や時系列パターンを過去のインタラクションに基づいて捉えることを目的としている。
MME-SIDは多モード埋め込みと量子埋め込みを統合し、埋め込み崩壊を緩和する。
3つの公開データセットに対する大規模な実験により、MME-SIDの優れた性能が検証された。
論文 参考訳(メタデータ) (2025-09-02T07:02:29Z) - U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning with MLLMs [24.551034147718312]
ユニバーサルマルチモーダル検索(UMR)は、クエリと候補の両方が多様なモダリティにまたがる複雑な検索タスクに対処することを目的としている。
本研究は, MLLMを用いたUMRの効果的な埋め込み学習を促進する重要な要素を明らかにすることを目的とした研究である。
我々は、M-Bベンチマークにおいて最先端の競合より優れている統一フレームワークU-MARVELを導入する。
論文 参考訳(メタデータ) (2025-07-20T10:27:34Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。