論文の概要: MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model
- arxiv url: http://arxiv.org/abs/2602.06393v1
- Date: Fri, 06 Feb 2026 05:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.240966
- Title: MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model
- Title(参考訳): MuCo:マルチモーダル埋め込みモデルのためのマルチターンコントラスト学習
- Authors: Geonmo Gu, Byeongho Heo, Jaemyung Yu, Jaehui Hwang, Taekyung Kim, Sangmin Lee, HeeJae Jun, Yoohoon Kang, Sangdoo Yun, Dongyoon Han,
- Abstract要約: Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。
新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
- 参考スコア(独自算出の注目度): 57.89395815934156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal Multimodal embedding models built on Multimodal Large Language Models (MLLMs) have traditionally employed contrastive learning, which aligns representations of query-target pairs across different modalities. Yet, despite its empirical success, they are primarily built on a "single-turn" formulation where each query-target pair is treated as an independent data point. This paradigm leads to computational inefficiency when scaling, as it requires a separate forward pass for each pair and overlooks potential contextual relationships between multiple queries that can relate to the same context. In this work, we introduce Multi-Turn Contrastive Learning (MuCo), a dialogue-inspired framework that revisits this process. MuCo leverages the conversational nature of MLLMs to process multiple, related query-target pairs associated with a single image within a single forward pass. This allows us to extract a set of multiple query and target embeddings simultaneously, conditioned on a shared context representation, amplifying the effective batch size and overall training efficiency. Experiments exhibit MuCo with a newly curated 5M multimodal multi-turn dataset (M3T), which yields state-of-the-art retrieval performance on MMEB and M-BEIR benchmarks, while markedly enhancing both training efficiency and representation coherence across modalities. Code and M3T are available at https://github.com/naver-ai/muco
- Abstract(参考訳): MLLM(Multimodal Large Language Models)上に構築されたユニバーサルマルチモーダル埋め込みモデルは、伝統的に異なるモダリティにまたがるクエリとターゲットのペアの表現を整列するコントラスト学習を採用してきた。
しかし、実証的な成功にもかかわらず、それらは主に、各クエリとターゲットのペアが独立したデータポイントとして扱われる"シングルターン"の定式化に基づいて構築されている。
このパラダイムは、ペアごとに別々のフォワードパスを必要とし、同じコンテキストに関連可能な複数のクエリ間の潜在的なコンテキスト関係を見落としているため、スケーリング時に計算の非効率性につながる。
本研究では,このプロセスを再考する対話型フレームワークであるMulti-Turn Contrastive Learning (MuCo)を紹介する。
MuCoはMLLMの会話の性質を活用し、単一のフォワードパス内で単一のイメージに関連付けられた複数のクエリ-ターゲットペアを処理する。
これにより、複数のクエリとターゲットの埋め込みを同時に抽出し、共有コンテキスト表現で条件付けし、効果的なバッチサイズと全体的なトレーニング効率を増幅することができる。
実験では、MMEBとM-BEIRベンチマークで最先端の検索性能が得られる新しい5Mマルチモーダルマルチターンデータセット(M3T)でMuCoを展示し、モダリティ間のトレーニング効率と表現コヒーレンスの両方を著しく向上させた。
CodeとM3Tはhttps://github.com/naver-ai/mucoで入手できる。
関連論文リスト
- Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
我々の理論的分析は、情報の共有、相乗的、ユニークな用語がこの定式化から自然に現れることを示している。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、7つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.56746545958522]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。