論文の概要: Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs
- arxiv url: http://arxiv.org/abs/2510.24514v1
- Date: Tue, 28 Oct 2025 15:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.24975
- Title: Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs
- Title(参考訳): 後期スケッチパッド:MLLMにおけるマルチモーダル推論への視覚的思考のスケッチ
- Authors: Huanyu Zhang, Wenshan Wu, Chengzu Li, Ning Shang, Yan Xia, Yangyu Huang, Yifan Zhang, Li Dong, Zhang Zhang, Liang Wang, Tieniu Tan, Furu Wei,
- Abstract要約: マルチモーダルな大規模言語モデルと内部の視覚的スクラッチパッドを備えたフレームワークであるLatent Sketchpadを紹介した。
人間は、視覚的思考の形でスケッチを使ってアイデアを開発、伝達する方法に触発され、Latent Sketchpadを紹介します。
新しいデータセットMazePlanningでフレームワークを評価する。
- 参考スコア(独自算出の注目度): 80.2089647067782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Multimodal Large Language Models (MLLMs) excel at visual understanding, they often struggle in complex scenarios that require visual planning and imagination. Inspired by how humans use sketching as a form of visual thinking to develop and communicate ideas, we introduce Latent Sketchpad, a framework that equips MLLMs with an internal visual scratchpad. The internal visual representations of MLLMs have traditionally been confined to perceptual understanding. We repurpose them to support generative visual thought without compromising reasoning ability. Building on frontier MLLMs, our approach integrates visual generation directly into their native autoregressive reasoning process. It allows the model to interleave textual reasoning with the generation of visual latents. These latents guide the internal thought process and can be translated into sketch images for interpretability. To realize this, we introduce two components: a Context-Aware Vision Head autoregressively produces visual representations, and a pretrained Sketch Decoder renders these into human-interpretable images. We evaluate the framework on our new dataset MazePlanning. Experiments across various MLLMs show that Latent Sketchpad delivers comparable or even superior reasoning performance to their backbone. It further generalizes across distinct frontier MLLMs, including Gemma3 and Qwen2.5-VL. By extending model's textual reasoning to visual thinking, our framework opens new opportunities for richer human-computer interaction and broader applications. More details and resources are available on our project page: https://latent-sketchpad.github.io/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は視覚的理解に長けているが、視覚的な計画と想像力を必要とする複雑なシナリオに苦しむことが多い。
そこで我々は,MLLMに内部の視覚的スクラッチパッドを装備するフレームワークであるLatent Sketchpadを紹介した。
MLLMの内部視覚表現は、伝統的に知覚的理解に限られてきた。
我々は、推論能力を損なうことなく、生成的視覚的思考を支援するためにそれらを再利用した。
本手法は,フロンティアMLLMをベースとして,視覚生成を直接ネイティブな自己回帰推論プロセスに統合する。
これにより、モデルが視覚的な潜伏者を生成することで、テキスト推論をインターリーブすることができる。
これらの潜伏者は内部の思考過程をガイドし、解釈可能なスケッチ画像に変換することができる。
これを実現するために、Context-Aware Vision Headが視覚表現を自動回帰生成し、事前学習したSketch Decoderがそれらを人間の解釈可能な画像にレンダリングする。
新しいデータセットMazePlanningでフレームワークを評価する。
様々なMLLMでの実験では、Latent Sketchpadは背骨に同等またはそれ以上の推論性能を提供する。
さらにGemma3やQwen2.5-VLなど、異なるフロンティアMLLMをまたいで一般化している。
モデルのテキスト推論を視覚的思考に拡張することにより、よりリッチな人間-コンピュータインタラクションとより広範なアプリケーションに新たな機会が開かれる。
詳細とリソースはプロジェクトのページにある。
関連論文リスト
- Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Beyond Embeddings: The Promise of Visual Table in Visual Reasoning [38.558250602212425]
視覚的推論に適した新しい視覚表現形式である視覚表を提案する。
ビジュアルテーブルは、視覚シーンの階層的な記述として構築され、シーン記述と複数のオブジェクト中心の記述が特徴である。
それらは、視覚的推論に不可欠な、インスタンスレベルの世界知識と詳細な属性を提供します。
論文 参考訳(メタデータ) (2024-03-27T04:49:23Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。