論文の概要: Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings
- arxiv url: http://arxiv.org/abs/2604.22280v1
- Date: Fri, 24 Apr 2026 06:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.369409
- Title: Beyond Chain-of-Thought: Rewrite as a Universal Interface for Generative Multimodal Embeddings
- Title(参考訳): チェーン・オブ・ワットを超えて: ジェネレーティブなマルチモーダル埋め込みのためのユニバーサルインターフェースとして書き換える
- Authors: Peixi Wu, Ke Mei, Feipeng Ma, Bosong Chai, Zhibin Lan, Chenxi Zhao, Shannan Yan, Jie Chen, Zhangchi Hu, Yansong Peng, Bo Lin, Junjie Zhou, Dacheng Yin, Tianyi Wang, Fengyun Rao, Jing Lyu, Hebei Li, Xiaoyan Sun,
- Abstract要約: MLLM(Multimodal Large Language Models)は、ユニバーサルなマルチモーダル埋め込みのための有望な基盤として登場した。
近年の研究では、推論駆動型生成多モード埋め込みは、複数の埋め込みタスクにおける識別的埋め込みよりも優れていることが示されている。
Rewrite-driven Multimodal Embedding (RIME)を提案する。
- 参考スコア(独自算出の注目度): 32.702215732070826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have emerged as a promising foundation for universal multimodal embeddings. Recent studies have shown that reasoning-driven generative multimodal embeddings can outperform discriminative embeddings on several embedding tasks. However, Chain-of-Thought (CoT) reasoning tends to generate redundant thinking steps and introduce semantic ambiguity in the summarized answers in broader retrieval scenarios. To address this limitation, we propose Rewrite-driven Multimodal Embedding (RIME), a unified framework that jointly optimizes generation and embedding through a retrieval-friendly rewrite. Meanwhile, we present the Cross-Mode Alignment (CMA) to bridge the generative and discriminative embedding spaces, enabling flexible mutual retrieval to trade off efficiency and accuracy. Based on this, we also introduce Refine Reinforcement Learning (Refine-RL) that treats discriminative embeddings as stable semantic anchors to guide the rewrite optimization. Extensive experiments on MMEB-V2, MRMR and UVRB demonstrate that RIME substantially outperforms prior generative embedding models while significantly reducing the length of thinking.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ユニバーサルなマルチモーダル埋め込みのための有望な基盤として登場した。
近年の研究では、推論駆動型生成多モード埋め込みは、複数の埋め込みタスクにおける識別的埋め込みよりも優れていることが示されている。
しかし、Chain-of-Thought(CoT)推論は冗長な思考ステップを生成し、より広範な検索シナリオにおいて要約された回答に意味的曖昧さを導入する傾向にある。
この制限に対処するため,リライト駆動型Multimodal Embedding (RIME)を提案する。
一方、CMA(Cross-Mode Alignment)は、生成的および識別的埋め込み空間を橋渡しし、フレキシブルな相互検索により効率と精度のトレードオフを可能にする。
これに基づいて、識別的埋め込みを安定的なセマンティックアンカーとして扱い、書き換え最適化を導くRefine Reinforcement Learning (Refine-RL)も導入する。
MMEB-V2, MRMR, UVRBの広範囲な実験により, RIMEは前世代埋め込みモデルよりも大幅に優れており, 思考長は著しく減少することが示された。
関連論文リスト
- PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文 参考訳(メタデータ) (2026-04-02T14:04:53Z) - Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings [44.77164359074224]
マルチモーダル大規模言語モデル(MLLM)は、ユニバーサル・マルチモーダル・エンベディング(UME)の進展に欠かせないものとなっている。
近年の研究では、生成的連鎖(CoT)推論を取り入れることで、タスク固有の表現が大幅に向上することが示されている。
本稿では,Embedder-Guided Reinforcement Learning (EG-RL)を統合した推論駆動型UMEフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-14T15:35:03Z) - CausalEmbed: Auto-Regressive Multi-Vector Generation in Latent Space for Visual Document Embedding [71.88471147281406]
マルチベクトル埋め込み構築のための自動回帰生成手法CausalEmbedを提案する。
コントラストトレーニング中に反復的マージン損失を導入することで、CausalEmbedは埋め込みモデルにコンパクトでよく構造化された表現を学ぶことを奨励する。
本手法は,数十個の視覚トークンを用いた効率的なVDR処理を実現し,トークン数を30~15倍削減する。
論文 参考訳(メタデータ) (2026-01-29T04:47:27Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Reasoning Guided Embeddings: Leveraging MLLM Reasoning for Improved Multimodal Retrieval [25.629529312687694]
マルチモーダル大言語モデル(MLLM)の生成合理的なプロセスを保存するReasoning Guided Embeddings (RGE)を提案する。
提案手法はまず,命令に条件付き構造的有理数生成を実行し,推論が展開された後に表現を抽出する。
MMEBベンチマークの実験では、推論誘導条件が非推論ベースラインよりも4.9%向上することが示された。
論文 参考訳(メタデータ) (2025-11-20T08:44:47Z) - UME-R1: Exploring Reasoning-Driven Generative Multimodal Embeddings [70.60608084375691]
我々は、生成的埋め込みの探索の先駆者であり、生成的パラダイム内の埋め込みタスクを統合する。
UME-R1は,2段階のトレーニング戦略からなる汎用なマルチモーダル埋め込みフレームワークである。
ビデオ、画像、ビジュアルドキュメントにまたがる78タスクにわたるMMEB-V2ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-11-01T05:04:23Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。