論文の概要: PLUME: Latent Reasoning Based Universal Multimodal Embedding
- arxiv url: http://arxiv.org/abs/2604.02073v1
- Date: Thu, 02 Apr 2026 14:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.840908
- Title: PLUME: Latent Reasoning Based Universal Multimodal Embedding
- Title(参考訳): PLUME: 遅延推論に基づくユニバーサルマルチモーダル埋め込み
- Authors: Chenwei He, Xiangzhao Hao, Tianyu Yang, Yuxiang Ma, Yuheng Jia, Lingxiang Wu, Chaoyang Zhao, Haiyun Guo, Jinqiao Wang,
- Abstract要約: ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
- 参考スコア(独自算出の注目度): 52.35354073629127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.
- Abstract(参考訳): ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。
近年のアプローチでは、埋め込みを抽出する前に明示的なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。
しかし、明示的なCoTは、かなりの推測オーバーヘッドをもたらし、リッチなマルチモーダルなエビデンスを狭いテキストボトルネックに圧縮することができる。
PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
多様なマルチモーダルクエリをサポートするために、PLUMEは、同じ固定計算予算の下で異なる推論軌道に沿って遅延ロールアウトを行うセマンティックアンカー誘導遷移アダプタも導入している。
トレーニングを安定させるために、PLUMEは、言語推論を一時的なトレーニングの足場としてのみ使用し、この振る舞いを徐々に隠れ状態の計算に移行し、推論時に明示的なCoTを排除した、プログレッシブな明示的-相対的カリキュラムを採用している。
78タスクのMMEB-v2ベンチマークでは、PLUMEは強力な明示的なCoT UMEベースラインを上回り、数百の生成されたトークンからの推論を10ステップ未満に削減し、30倍以上高速な推論を実現している。
PLUMEは特に、関連する証拠が密集し、構造的に複雑であり、ビデオや視覚文書の検索のような言語化された中間的論理によって組織化が難しい検索設定に適している。
これらの結果から、構造化された潜在計算は、明示的な有理数生成のオーバーヘッドを伴わずに中間推論の利点を保ち、実用的な検索システムにおいてより強力で効率的なパラダイムを提供することができることが示された。
関連論文リスト
- TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval [35.86480813138274]
Universal Multimodal Retrievalは、多様なユーザ意図を解釈できる統合埋め込みモデルを必要とする。
TRACE(Task-adaptive Reasoning and Embeddings)を紹介する。
TRACEは、生成的推論を識別的表現学習と統合する。
論文 参考訳(メタデータ) (2026-03-03T12:36:39Z) - CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension [49.6969505536365]
生成能力を保ちつつ、検索のためのマルチモーダル表現を強化する統一的なフレームワークであるCREMを提案する。
CREMはMMEB上での最先端検索性能を達成し,複数の理解ベンチマーク上での強力な生成性能を維持する。
論文 参考訳(メタデータ) (2026-02-22T08:09:51Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Multi-Path Collaborative Reasoning via Reinforcement Learning [54.8518809800168]
CoT(Chain-of-Thought)推論は、LLM(Large Language Models)の問題解決能力を大幅に向上させた。
最近の手法では、連続的な意味空間における推論を可能にするために、ソフトな抽象トークンを生成することでこの問題に対処しようとしている。
提案するM3PO(Multi-Path Perception Policy Optimization)は,推論プロセスに集団的洞察を明示的に注入する,新たな強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T10:05:46Z) - Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Chain-of-Thought Prompt Distillation for Multimodal Named Entity
Recognition and Multimodal Relation Extraction [8.169359626365619]
思考のテキストチェーン(CoT) -- 中間推論ステップのシーケンスを生成します。
本稿では,大規模言語モデルからのコモンセンス推論能力を同化するための新しい条件付きプロンプト蒸留法を提案する。
我々のアプローチは最先端の精度を達成し、解釈可能性、データ効率、ドメイン間の一般化に関する多くの利点を示す。
論文 参考訳(メタデータ) (2023-06-25T04:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。