論文の概要: Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
- arxiv url: http://arxiv.org/abs/2602.13823v1
- Date: Sat, 14 Feb 2026 15:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.444382
- Title: Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
- Title(参考訳): Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
- Authors: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、ユニバーサル・マルチモーダル・エンベディング(UME)の進展に欠かせないものとなっている。
近年の研究では、生成的連鎖(CoT)推論を取り入れることで、タスク固有の表現が大幅に向上することが示されている。
本稿では,Embedder-Guided Reinforcement Learning (EG-RL)を統合した推論駆動型UMEフレームワークを提案する。
- 参考スコア(独自算出の注目度): 44.77164359074224
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の活用は,多種多様なクロスモーダルタスクに対処するユニバーサル・マルチモーダル・エンベディング(UME)の進展に重要な役割を担っている。
近年の研究では、CoT推論を組み込むことで、識別法と比較してタスク固有の表現を著しく向上させることができることが示されている。
しかし,既存の生成的埋め込み手法で生成された推論CoTは,クエリのテキスト解析に限られており,ターゲットの検索には無関係である。
これらの制約に対処するため、我々はEmbedder-Guided Reinforcement Learning (EG-RL)を統合してReasonerを最適化し、明らかにトレーサビリティCoT(T-CoT)を生成する推論駆動UMEフレームワークを提案する。
1)EmbedderがReasonerへの明示的な監督を提供し、生成されたCoTトレースが埋め込みタスクと整合していることを保証するEG-RLフレームワークを設計します。
2) T-CoTを導入し, 重要なマルチモーダルキューを抽出し, 検索関連要素に着目し, エンベッドダーにマルチモーダル入力を提供する。
(3)計算資源が限られているため,MMEB-V2ベンチマークとUVRBベンチマークの両方において,本フレームワークは先駆的な埋め込みモデルよりも優れていた。
構造的推論におけるマルチモーダルなエビデンスの統合は、検索指向のアライメントと組み合わせることで、クロスモーダルなセマンティック一貫性を効果的に強化し、複雑なシナリオをまたいだ一般化だけでなく、モデルのきめ細かいマッチング能力を高める。
本研究は, 推論最適化がマルチモーダル埋め込み品質を著しく向上させ, 推論駆動型UME開発のための実用的で効率的なソリューションを提供することを示す。
関連論文リスト
- Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation [31.90681057778075]
MMRAG(Multi-modal Retrieval-Augmented Generation)は、外部のマルチモーダル知識を統合することで、信頼性の高い生成を可能にする。
既存のMMRAG法は、検索および応答生成の背後にある推論ロジックを明らかにすることができない。
論文 参考訳(メタデータ) (2025-12-19T03:19:54Z) - Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings [70.60608084375691]
我々は、生成的埋め込みの探索の先駆者であり、生成的パラダイム内の埋め込みタスクを統合する。
UME-R1は,2段階のトレーニング戦略からなる汎用なマルチモーダル埋め込みフレームワークである。
ビデオ、画像、ビジュアルドキュメントにまたがる78タスクにわたるMMEB-V2ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-01T05:04:23Z) - M2IO-R1: An Efficient RL-Enhanced Reasoning Framework for Multimodal Retrieval Augmented Multimodal Generation [21.351389727009483]
マルチモーダル入力と出力の両方をサポートするMRAMG(Multimodal Retrieval-Augmented Multimodal Generation)の新しいフレームワークであるM2IO-R1を紹介する。
我々のフレームワークの中心となるのは,RL ベースのインサータ Inserter-R1-3B であり,画像選択と配置を制御可能で意味的に整合した方法でガイドするグループ相対的ポリシー最適化(Group Relative Policy Optimization)で訓練されている。
論文 参考訳(メタデータ) (2025-08-08T14:00:19Z) - RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning [60.84707424369494]
CoT(Chain-of-Thought)推論は、複雑なタスクにおける大規模言語モデル(LLM)の強化に有効であることが証明されている。
CoT 機能の計測可能なバウンダリの評価と最適化を行うフレームワークである Reasoning Boundary Framework++ (RBF++) を紹介する。
論文 参考訳(メタデータ) (2025-05-19T16:25:55Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。