論文の概要: Monet: Reasoning in Latent Visual Space Beyond Images and Language
- arxiv url: http://arxiv.org/abs/2511.21395v1
- Date: Wed, 26 Nov 2025 13:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.120527
- Title: Monet: Reasoning in Latent Visual Space Beyond Images and Language
- Title(参考訳): Monet: 画像と言語以外の視覚空間における推論
- Authors: Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang,
- Abstract要約: 視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 55.424507246294326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Thinking with images" has emerged as an effective paradigm for advancing visual reasoning, extending beyond text-only chains of thought by injecting visual evidence into intermediate reasoning steps. However, existing methods fall short of human-like abstract visual thinking, as their flexibility is fundamentally limited by external tools. In this work, we introduce Monet, a training framework that enables multimodal large language models (MLLMs) to reason directly within the latent visual space by generating continuous embeddings that function as intermediate visual thoughts. We identify two core challenges in training MLLMs for latent visual reasoning: high computational cost in latent-vision alignment and insufficient supervision over latent embeddings, and address them with a three-stage distillation-based supervised fine-tuning (SFT) pipeline. We further reveal a limitation of applying GRPO to latent reasoning: it primarily enhances text-based reasoning rather than latent reasoning. To overcome this, we propose VLPO (Visual-latent Policy Optimization), a reinforcement learning method that explicitly incorporates latent embeddings into policy gradient updates. To support SFT, we construct Monet-SFT-125K, a high-quality text-image interleaved CoT dataset containing 125K real-world, chart, OCR, and geometry CoTs. Our model, Monet-7B, shows consistent gains across real-world perception and reasoning benchmarks and exhibits strong out-of-distribution generalization on challenging abstract visual reasoning tasks. We also empirically analyze the role of each training component and discuss our early unsuccessful attempts, providing insights for future developments in visual latent reasoning. Our model, data, and code are available at https://github.com/NOVAglow646/Monet.
- Abstract(参考訳): 画像を用いた思考」は、中間的推論ステップに視覚的証拠を注入することによって、テキストのみの思考の連鎖を超えて、視覚的推論を促進する効果的なパラダイムとして現れてきた。
しかしながら、既存の手法は人間のような抽象的な視覚的思考に欠けており、その柔軟性は基本的に外部ツールによって制限されている。
本研究では,マルチモーダルな大規模言語モデル(MLLM)を,中間的な視覚的思考として機能する連続的な埋め込みを生成することによって,潜在視覚空間内で直接推論できるトレーニングフレームワークであるMonetを紹介する。
我々は,潜時視覚推論のためのMLLMのトレーニングにおいて,潜時視覚アライメントの計算コストが高く,潜時埋め込みの監督が不十分な2つの課題を特定し,これらを3段階の蒸留法に基づく教師あり微調整(SFT)パイプラインで解決する。
さらに、潜時推論にGRPOを適用する制限を明らかにし、潜時推論よりも主にテキストベースの推論を強化する。
これを解決するために,潜伏埋め込みをポリシー勾配更新に明示的に組み込む強化学習手法であるVLPO(Visual-latent Policy Optimization)を提案する。
SFTをサポートするために、125K実世界、チャート、OCR、幾何CoTを含む高品質なテキストイメージインターリーブCoTデータセットであるMonet-SFT-125Kを構築した。
我々のモデルであるMonet-7Bは、実世界の知覚と推論のベンチマークで一貫した利得を示し、抽象的な視覚的推論タスクに強い分布の一般化を示す。
また、各トレーニングコンポーネントの役割を実証的に分析し、早期に失敗した試みについて議論し、視覚的潜伏推論における将来の発展に対する洞察を提供する。
私たちのモデル、データ、コードはhttps://github.com/NOVAglow646/Monet.comで公開されています。
関連論文リスト
- Rethinking the Text-Vision Reasoning Imbalance in MLLMs through the Lens of Training Recipes [54.374410871041164]
MLLM(Multimodal large language model)は、視覚・言語タスクにおいて強力な機能を示す。
近年の研究では、視覚的・テキスト的モダリティ間の推論能力の不均衡が指摘されている。
我々は、この現象を、テキスト中心と視覚中心の入力のパフォーマンス格差として定義される、テクティモダリティギャップと呼ぶ。
論文 参考訳(メタデータ) (2025-10-26T21:06:13Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。