論文の概要: Think Then Embed: Generative Context Improves Multimodal Embedding
- arxiv url: http://arxiv.org/abs/2510.05014v1
- Date: Mon, 06 Oct 2025 16:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.996414
- Title: Think Then Embed: Generative Context Improves Multimodal Embedding
- Title(参考訳): Think then Embed: 生成コンテキストがマルチモーダルな埋め込みを改善する
- Authors: Xuanming Cui, Jianpeng Cheng, Hong-you Chen, Satya Narayan Shukla, Abhijeet Awasthi, Xichen Pan, Chaitanya Ahuja, Shlok Kumar Mishra, Qi Guo, Ser-Nam Lim, Aashu Singh, Xiangjun Fan,
- Abstract要約: 本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
- 参考スコア(独自算出の注目度): 47.493748186420966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in Universal Multimodal Embeddings (UME), where models are required to generate task-specific representations. While recent studies show that Multimodal Large Language Models (MLLMs) perform well on such tasks, they treat MLLMs solely as encoders, overlooking their generative capacity. However, such an encoding paradigm becomes less effective as instructions become more complex and require compositional reasoning. Inspired by the proven effectiveness of chain-of-thought reasoning, we propose a general Think-Then-Embed (TTE) framework for UME, composed of a reasoner and an embedder. The reasoner MLLM first generates reasoning traces that explain complex queries, followed by an embedder that produces representations conditioned on both the original query and the intermediate reasoning. This explicit reasoning step enables more nuanced understanding of complex multimodal instructions. Our contributions are threefold. First, by leveraging a powerful MLLM reasoner, we achieve state-of-the-art performance on the MMEB-V2 benchmark, surpassing proprietary models trained on massive in-house datasets. Second, to reduce the dependency on large MLLM reasoners, we finetune a smaller MLLM reasoner using high-quality embedding-centric reasoning traces, achieving the best performance among open-source models with a 7% absolute gain over recently proposed models. Third, we investigate strategies for integrating the reasoner and embedder into a unified model for improved efficiency without sacrificing performance.
- Abstract(参考訳): UME(Universal Multimodal Embeddings)は、タスク固有の表現を生成するためにモデルを必要とする。
近年の研究では、MLLM(Multimodal Large Language Models, Multimodal Large Language Models, MLLM)がこのようなタスクでうまく機能していることが示されているが、彼らはMLLMをエンコーダとしてのみ扱い、その生成能力を見越す。
しかし、このような符号化パラダイムは、命令がより複雑になり、構成的推論を必要とするため、効果が低下する。
チェーン・オブ・シークレット・推論の実証された効果に触発されて、我々は、理性体と埋め込み体からなる、UMEのための一般的なシンク・ザ・エンベッド(TTE)フレームワークを提案する。
MLLMは、まず、複雑なクエリを説明する推論トレースを生成し、次に、元のクエリと中間推論の両方で条件付き表現を生成する埋め込み器を生成する。
この明示的な推論ステップは、複雑なマルチモーダル命令のよりニュアンスな理解を可能にする。
私たちの貢献は3倍です。
まず、強力なMLLM推論器を活用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回っます。
第2に,大規模なMLLM推論器への依存性を低減するため,高品質な埋め込み中心推論トレースを用いてより小さなMLLM推論器を微調整し,最近提案されたモデルに対して7%の絶対ゲインを達成した。
第3に、性能を犠牲にすることなく効率を向上させる統一モデルに推論器と埋め込み器を統合する戦略について検討する。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。