論文の概要: Multimodal Latent Reasoning via Predictive Embeddings
- arxiv url: http://arxiv.org/abs/2604.08065v1
- Date: Thu, 09 Apr 2026 10:27:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.863325
- Title: Multimodal Latent Reasoning via Predictive Embeddings
- Title(参考訳): 予測埋め込みによるマルチモーダル潜時推論
- Authors: Ashutosh Adhikari, Mirella Lapata,
- Abstract要約: Pearlは、専門的なツール使用トラジェクトリから学習するフレームワークである。
Pearlはモデルに依存しず、トレーニングが簡単で、複数のツールコールでトラジェクトリを自然にサポートする。
- 参考スコア(独自算出の注目度): 43.40267514669565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented multimodal reasoning enables visual language models (VLMs) to improve perception by interacting with external tools (e.g., cropping, depth estimation). However, such approaches incur substantial inference overhead, require specialized supervision, and are prone to erroneous tool calls. We propose Pearl (Predictive Embedding Alignment for Reasoning in Latent space), a JEPA-inspired framework that learns from expert tool-use trajectories entirely in the latent space, eliminating the need for explicit tool invocation at inference time. Unlike reconstruction-based latent reasoning methods, which autoregressively generate latent tokens and suffer from training-inference mismatch and limited support for multi-step tool use, Pearl directly learns predictive embeddings from multimodal trajectories while preserving the standard vision-language generation pipeline: it is model-agnostic, simple to train, and naturally supports trajectories with multiple tool calls. Experiments across multiple perception benchmarks show that Pearl matches or outperforms standard supervised fine-tuning and reconstruction-based latent reasoning approaches. Furthermore, we provide empirical evidence that reconstruction-based methods primarily learn embeddings rather than image edits in latent space, motivating predictive embedding learning as a more principled alternative.
- Abstract(参考訳): ツール拡張マルチモーダル推論により、視覚言語モデル(VLM)は、外部ツール(例えば、収穫、深さ推定)と相互作用することで知覚を改善することができる。
しかし、そのようなアプローチはかなりの推測オーバーヘッドを発生させ、特別な監督を必要とし、誤ったツールコールをしがちである。
提案するPearl(Predictive Embedding Alignment for Reasoning in Latent space)は、JEPAにインスパイアされたフレームワークで、潜伏空間における専門的なツール使用軌跡から学習し、推論時に明示的なツール実行の必要性を排除する。
遅延トークンを自動回帰的に生成し、トレーニング推論ミスマッチやマルチステップツール使用の限定的なサポートに苦しむ再構築ベースの潜在推論方法とは異なり、Pearlは標準的な視覚言語生成パイプラインを保存しながら、マルチモーダルな軌跡からの予測埋め込みを直接学習する。
複数の知覚ベンチマークによる実験は、パールが標準的な微調整および再構成に基づく潜伏推論アプローチに適合または優れることを示している。
さらに,提案手法は画像編集よりも埋め込みを学習し,より原理化された代替手段として予測埋め込み学習を動機付けるという実証的証拠を提供する。
関連論文リスト
- Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - ReThinker: Scientific Reasoning by Rethinking with Guided Reflection and Confidence Control [44.113610704492224]
ReThinkerは、検索、ツールの使用、マルチエージェント推論を編成する信頼性対応のエージェントフレームワークである。
HLE、GAIA、XBenchの実験は、ReThinkerが常に最先端の基礎モデルより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-04T12:41:52Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。