論文の概要: Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2511.16150v1
- Date: Thu, 20 Nov 2025 08:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.538128
- Title: Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval
- Title(参考訳): Reasoning Guided Embeddings: MLLM Reasoningによるマルチモーダル検索の改善
- Authors: Chunxu Liu, Jiyuan Yang, Ruopeng Gao, Yuhan Zhu, Feng Zhu, Rui Zhao, Limin Wang,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
- 参考スコア(独自算出の注目度): 25.629529312687694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal embeddings are widely used in downstream tasks such as multimodal retrieval, enabling alignment of interleaved modalities in a shared representation space. While recent studies show that Multimodal Large Language Models (MLLMs) can serve as strong embedding extractors, existing approaches treat embedding extraction as a direct encoding step, overlooking the fact that MLLMs possess the generative capability for reasoning that could be leveraged to enhance representation quality. In this work, we explore how to explicitly incorporate reasoning into the embedding process. To this end, we propose Reasoning Guided Embeddings (RGE), which preserves the generative rationale process of MLLMs and couples it with contrastive training. Our method first enables the model to perform structured rationale generation conditioned on the instruction, and then extracts representations after reasoning has unfolded. This simple design enhances the context-conditional inference signals within the embedding, leading to improved multimodal representation quality. Experiments on the MMEB benchmark show that reasoning-guided conditioning improves multimodal retrieval performance by 4.9% over the non-reasoning baseline, confirming that explicit reasoning can effectively enhance embedding quality.
- Abstract(参考訳): マルチモーダル埋め込みは、マルチモーダル検索のような下流タスクで広く使われ、共有表現空間におけるインターリーブモードのアライメントを可能にする。
近年の研究では,マルチモーダル大規模言語モデル(MLLM)が強力な埋め込み抽出器として機能することが示されているが,既存の手法では,MLLMが表現品質を高めるために活用できる生成能力を持っているという事実を見越して,埋め込み抽出を直接符号化ステップとして扱うことができる。
本研究では,埋め込みプロセスに推論を明示的に組み込む方法について検討する。
この目的のために,MLLMの生成的合理的過程を保存し,対照的なトレーニングと組み合わせたReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
この単純な設計により、埋め込み内のコンテキスト条件推論信号が強化され、マルチモーダル表現の品質が向上する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上し、明示的推論が埋め込み品質を効果的に向上できることが確認されている。
関連論文リスト
- Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward [77.34936657745578]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Evaluating and Steering Modality Preferences in Multimodal Large Language Model [42.828461839307174]
マルチモーダル大言語モデル(MLLM)は、マルチモーダルコンテキストを持つ複雑なタスクにおいて顕著なパフォーマンスを実現している。
実験対象のMLLMは, すべて明らかなモダリティバイアスを示し, 外部介入の影響を受けやすいことがわかった。
本稿では,モダリティの選好を明示的に制御するための表現工学に基づく探索・操舵手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:07:59Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。