論文の概要: PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
- arxiv url: http://arxiv.org/abs/2509.25185v1
- Date: Mon, 29 Sep 2025 17:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.90094
- Title: PixelCraft: A Multi-Agent System for High-Fidelity Visual Reasoning on Structured Images
- Title(参考訳): PixelCraft: 構造化画像上での高忠実なビジュアル推論のためのマルチエージェントシステム
- Authors: Shuoshuo Zhang, Zijian Li, Yizhen Zhang, Jingjing Fu, Lei Song, Jiang Bian, Jun Zhang, Yujiu Yang, Rui Wang,
- Abstract要約: PixelCraftは、高忠実度画像処理と、構造化画像に対する柔軟な視覚的推論のための、新しいマルチエージェントシステムである。
この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった3段階の動的なワークフローを通じて、視覚的推論を容易にする。
- 参考スコア(独自算出の注目度): 58.73779101355669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured images (e.g., charts and geometric diagrams) remain challenging for multimodal large language models (MLLMs), as perceptual slips can cascade into erroneous conclusions. Intermediate visual cues can steer reasoning; however, existing cue-based methods are constrained with low-fidelity image processing and linear, rigid reasoning patterns, limiting their effectiveness on complex structured-image tasks. In this paper, we propose PixelCraft, a novel multi-agent system for high-fidelity image processing and flexible visual reasoning on structured images. The system comprises a dispatcher, a planner, a reasoner, critics, and a set of visual tool agents. To achieve high-fidelity processing, we construct a high-quality corpus and fine-tune an MLLM into a grounding model, whose pixel-level localizations are integrated with traditional computer vision (CV) algorithms in tool agents. Building on this foundation, PixelCraft facilitates flexible visual reasoning through a dynamic three-stage workflow of tool selection, agent discussion, and self-criticism. Moreover, unlike prior linear reasoning patterns that simply append historical images, PixelCraft maintains an image memory to allow the planner to adaptively revisit earlier visual steps, explore alternative reasoning branches, and dynamically adjust the reasoning trajectory during discussion. Extensive experiments on challenging chart and geometry benchmarks demonstrate that PixelCraft significantly improves visual reasoning performance for advanced MLLMs, setting a new standard for structured image reasoning. Our code will be available at https://github.com/microsoft/PixelCraft.
- Abstract(参考訳): 構造化画像(例えば、チャート、幾何学図)は、知覚スリップが誤った結論を導くため、マルチモーダルな大言語モデル(MLLM)では依然として困難である。
しかし、既存のキューベースの手法は、低忠実度画像処理と線形で厳密な推論パターンに制約され、複雑な構造化画像タスクにおけるそれらの効果が制限される。
本稿では,高忠実度画像処理とフレキシブルな視覚的推論のための新しいマルチエージェントシステムであるPixelCraftを提案する。
このシステムは、ディスパッチ装置、プランナー、推論装置、批評家、視覚ツールエージェントからなる。
高忠実度処理を実現するため、我々は高品質なコーパスを構築し、MLLMを接地モデルに微調整し、画素レベルのローカライゼーションを従来のコンピュータビジョン(CV)アルゴリズムと統合する。
この基盤の上に構築されたPixelCraftは、ツールの選択、エージェントの議論、自己批判といった動的な3段階のワークフローを通じて、柔軟な視覚的推論を容易にする。
さらに、過去のイメージを単に付加する以前の線形推論パターンとは異なり、PixelCraftはイメージメモリを維持しており、プランナーが以前のビジュアルステップを適応的に再検討し、代替の推論ブランチを探索し、議論中の推論軌道を動的に調整することができる。
挑戦的なチャートと幾何ベンチマークに関する大規模な実験により、PixelCraftは高度なMLLMの視覚的推論性能を大幅に改善し、構造化画像推論の新しい標準を確立した。
私たちのコードはhttps://github.com/microsoft/PixelCraft.comで公開されます。
関連論文リスト
- DeepSketcher: Internalizing Visual Manipulation for Multimodal Reasoning [16.880791276029964]
画像を用いたシンキング」とは、視覚言語モデルがテキスト中心のチェーンから画像対話的推論へシフトする現象である。
本稿では、画像テキストインターリーブ付きデータセットと自己完結型モデルの両方からなる包括的スイートであるDeepSketcherを紹介する。
我々は,視覚的な埋め込み空間で直接操作することで,インターリーブされた画像テキスト推論を実行し,視覚的思考を生成するモデルを設計する。
論文 参考訳(メタデータ) (2025-09-30T07:02:01Z) - UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning [83.68366772745689]
視覚的なプロンプト入力を柔軟に解釈し,マスクによる応答を生成できる大規模マルチモーダルモデルUniPixelを提案する。
具体的には、UniPixelは、要求に応じて視覚的なプロンプトを処理し、関連するマスクを生成し、推論中にこれらの中間ポインタに対してその後の推論条件を実行する。
提案手法の有効性は,画素レベルの参照/セグメンテーションや画像・ビデオにおけるオブジェクト中心の理解など,多種多様なタスクを対象とした10のベンチマークで検証されている。
論文 参考訳(メタデータ) (2025-09-22T17:59:40Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [65.73013453373349]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。