論文の概要: Sketch-in-Latents: Eliciting Unified Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2512.16584v1
- Date: Thu, 18 Dec 2025 14:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.099717
- Title: Sketch-in-Latents: Eliciting Unified Reasoning in MLLMs
- Title(参考訳): Sketch-in-Latents:MLLMにおける統一推論の回避
- Authors: Jintao Tong, Jiaqi Gu, Yujing Lou, Lubin Fan, Yixiong Zou, Yue Wu, Jieping Ye, Ruixuan Li,
- Abstract要約: Sketch-in-Latentsは、統一マルチモーダル推論のための新しいパラダイムである。
連続的な視覚的な埋め込みを生成し、視覚的な思考として潜在スケッチトークンと呼ばれる。
視覚中心のタスクにおいて優れた性能を発揮し、多様な汎用マルチモーダルベンチマークへの強力な一般化を示す。
- 参考スコア(独自算出の注目度): 53.57402214935238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel at visual understanding tasks through text reasoning, they often fall short in scenarios requiring visual imagination. Unlike current works that take predefined external toolkits or generate images during thinking, however, humans can form flexible visual-text imagination and interactions during thinking without predefined toolkits, where one important reason is that humans construct the visual-text thinking process in a unified space inside the brain. Inspired by this capability, given that current MLLMs already encode visual and text information in the same feature space, we hold that visual tokens can be seamlessly inserted into the reasoning process carried by text tokens, where ideally, all visual imagination processes can be encoded by the latent features. To achieve this goal, we propose Sketch-in-Latents (SkiLa), a novel paradigm for unified multi-modal reasoning that expands the auto-regressive capabilities of MLLMs to natively generate continuous visual embeddings, termed latent sketch tokens, as visual thoughts. During multi-step reasoning, the model dynamically alternates between textual thinking mode for generating textual think tokens and visual sketching mode for generating latent sketch tokens. A latent visual semantics reconstruction mechanism is proposed to ensure these latent sketch tokens are semantically grounded. Extensive experiments demonstrate that SkiLa achieves superior performance on vision-centric tasks while exhibiting strong generalization to diverse general multi-modal benchmarks. Codes will be released at https://github.com/TungChintao/SkiLa.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、テキスト推論による視覚的理解タスクに優れるが、視覚的想像力を必要とするシナリオでは不足することが多い。
しかし、事前定義された外部ツールキットを取り入れたり、思考中に画像を生成する現在の研究とは異なり、人間は事前に定義されたツールキットなしで思考中に柔軟な視覚的テキストの想像力や相互作用を形成することができる。
この能力にインスパイアされた現在のMLLMは、視覚的およびテキスト情報を同じ特徴空間にエンコードしているので、視覚的トークンはテキストトークンが持つ推論プロセスにシームレスに挿入でき、理想的には、すべての視覚的想像的プロセスを潜在機能によってエンコードできる。
この目的を達成するために,MLLMの自己回帰機能を拡張し,視覚的思考として遅延スケッチトークンと呼ばれる連続的な視覚的埋め込みをネイティブに生成する,統一マルチモーダル推論のための新しいパラダイムであるSketch-in-Latents(SkiLa)を提案する。
マルチステップ推論では、テキスト思考トークンを生成するテキスト思考モードと、潜在スケッチトークンを生成するビジュアルスケッチモードとを動的に切り替える。
これらの潜在的スケッチトークンがセマンティックグラウンド化されることを保証するために、潜時視覚意味論再構成機構が提案されている。
広汎な実験により、SkiLaは視覚中心のタスクにおいて優れた性能を示し、多様な汎用マルチモーダルベンチマークへの強力な一般化を示す。
コードはhttps://github.com/TungChintao/SkiLa.comで公開される。
関連論文リスト
- Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs [80.2089647067782]
マルチモーダルな大規模言語モデルと内部の視覚的スクラッチパッドを備えたフレームワークであるLatent Sketchpadを紹介した。
人間は、視覚的思考の形でスケッチを使ってアイデアを開発、伝達する方法に触発され、Latent Sketchpadを紹介します。
新しいデータセットMazePlanningでフレームワークを評価する。
論文 参考訳(メタデータ) (2025-10-28T15:26:20Z) - Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Machine Mental Imagery: Empower Multimodal Reasoning with Latent Visual Tokens [44.19323180593379]
視覚言語モデル(VLM)は多モーダル理解において優れているが、テキストのみの復号化は視覚的推論の言語化を強いる。
最近の試みでは、VLMに明示的な画像をレンダリングするように訓練されているが、重い画像生成による事前学習は、しばしば推論能力を妨げている。
本稿では,VLMデコーディングを通常のテキストと並行して遅延視覚トークンで拡張する,Mirageと呼ばれるマシンメンタルイメージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:31Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。