論文の概要: DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2509.25866v1
- Date: Tue, 30 Sep 2025 07:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.051551
- Title: DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning
- Title(参考訳): DeepSketcher:マルチモーダル推論のためのビジュアルマニピュレーションを内部化
- Authors: Chi Zhang, Haibo Qiu, Qiming Zhang, Zhixiong Zeng, Lin Ma, Jing Zhang,
- Abstract要約: 画像を用いたシンキング」とは、視覚言語モデルがテキスト中心のチェーンから画像対話的推論へシフトする現象である。
本稿では、画像テキストインターリーブ付きデータセットと自己完結型モデルの両方からなる包括的スイートであるDeepSketcherを紹介する。
我々は,視覚的な埋め込み空間で直接操作することで,インターリーブされた画像テキスト推論を実行し,視覚的思考を生成するモデルを設計する。
- 参考スコア(独自算出の注目度): 16.880791276029964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "thinking with images" paradigm represents a pivotal shift in the reasoning of Vision Language Models (VLMs), moving from text-dominant chain-of-thought to image-interactive reasoning. By invoking visual tools or generating intermediate visual representations, VLMs can iteratively attend to fine-grained regions, enabling deeper image understanding and more faithful multimodal reasoning. As an emerging paradigm, however, it still leaves substantial room for exploration in data construction accuracy, structural design, and broader application scenarios, which offer rich opportunities for advancing multimodal reasoning. To further advance this line of work, we present DeepSketcher, a comprehensive suite comprising both an image-text interleaved dataset and a self-contained model. The dataset contains 31k chain-of-thought (CoT) reasoning trajectories with diverse tool calls and resulting edited images, covering a wide range of data types and manipulation instructions with high annotation accuracy. Building on this resource, we design a model that performs interleaved image-text reasoning and natively generates "visual thoughts" by operating directly in the visual embedding space, rather than invoking external tools and repeatedly re-encoding generated images. This design enables tool-free and more flexible "thinking with images". Extensive experiments on multimodal reasoning benchmarks demonstrate strong performance, validating both the utility of the dataset and the effectiveness of the model design.
- Abstract(参考訳): イメージを用いた思考」パラダイムは、視覚言語モデル(VLM)の推論において重要な転換であり、テキストに支配的な連鎖からイメージ間推論へと移行している。
ビジュアルツールを呼び出したり、中間的な視覚表現を生成することで、VLMはより深い画像理解とより忠実なマルチモーダル推論を可能にし、きめ細かな領域に反復的に参加することができる。
しかし、新たなパラダイムとして、データ構築の正確性、構造設計、そしてより広範なアプリケーションシナリオを探求する余地は依然として残っており、マルチモーダル推論を進めるための豊富な機会を提供する。
この一連の作業をさらに進めるために、画像テキストインターリーブデータセットと自己完結型モデルの両方からなる包括的スイートであるDeepSketcherを紹介した。
このデータセットには、さまざまなツールコールを備えた31kチェーン・オブ・思想(CoT)推論トラジェクトリが含まれており、さまざまなデータタイプや操作命令を高い精度でカバーしている。
このリソースを基盤として,外部ツールの呼び出しや生成画像の再エンコードを繰り返すのではなく,視覚的な埋め込み空間で直接操作することで,インターリーブされた画像テキスト推論を実行し,視覚的思考をネイティブに生成するモデルを設計する。
この設計により、ツールフリーでよりフレキシブルな“イメージによる思考”が可能になる。
マルチモーダル推論ベンチマークの大規模な実験は、データセットの有用性とモデル設計の有効性の両方を検証し、強力な性能を示す。
関連論文リスト
- Simple o3: Towards Interleaved Vision-Language Reasoning [38.46230601239066]
我々は、動的ツールインタラクションをインターリーブされた視覚言語推論に統合する、エンドツーエンドのフレームワークであるSimple o3を提案する。
提案手法は,高品質な視覚言語推論チェーンを生成するスケーラブルなデータ合成パイプラインを特徴とする。
実験の結果、Simple o3は様々なベンチマークで優れたパフォーマンスを示し、既存のアプローチよりも優れています。
論文 参考訳(メタデータ) (2025-08-16T17:15:39Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - From Redundancy to Relevance: Information Flow in LVLMs Across Reasoning Tasks [33.476693301050275]
我々は,視覚的質問応答と画像キャプションタスクのために,様々なLVLMの切り抜き戦略を用いて実験を行った。
視覚的表現の貢献の観点から情報の流れを探索することにより、浅い層に収束する傾向にあるが、より深い層に分散する傾向があることを観察する。
論文 参考訳(メタデータ) (2024-06-04T13:52:54Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。