論文の概要: Canvas-of-Thought: Grounding Reasoning via Mutable Structured States
- arxiv url: http://arxiv.org/abs/2602.10494v1
- Date: Wed, 11 Feb 2026 03:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.448584
- Title: Canvas-of-Thought: Grounding Reasoning via Mutable Structured States
- Title(参考訳): キャンバス・オブ・ワット: 可変構造状態によるグラウンドリング推論
- Authors: Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun, Caijun Jia, Honghao He, Yuchen Wu, Siyuan Li, Jingxuan Wei, Xiangxiang Zhang, Bihui Yu, Wentao Zhang,
- Abstract要約: CoT(Chain-of-Thought)の促進により、MLLM(Multimodal Large Language Models)の推論能力が大幅に向上した。
線形テキストシーケンスのみに依存することは、複雑なタスクのボトルネックのままです。
文脈効率を考慮したマルチモーダル推論のための新しいパラダイムである textbf Canvas-of-Thought (Canvas-CoT) を導入する。
- 参考スコア(独自算出の注目度): 18.74176136703898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Chain-of-Thought (CoT) prompting has significantly advanced the reasoning capabilities of Multimodal Large Language Models (MLLMs), relying solely on linear text sequences remains a bottleneck for complex tasks. We observe that even when auxiliary visual elements are interleaved, they are often treated as static snapshots within a one-dimensional, unstructured reasoning chain. We argue that such approaches treat reasoning history as an immutable stream: correcting a local error necessitates either generating verbose downstream corrections or regenerating the entire context. This forces the model to implicitly maintain and track state updates, significantly increasing token consumption and cognitive load. This limitation is particularly acute in high-dimensional domains, such as geometry and SVG design, where the textual expression of CoT lacks explicit visual guidance, further constraining the model's reasoning precision. To bridge this gap, we introduce \textbf{Canvas-of-Thought (Canvas-CoT)}. By leveraging a HTML Canvas as an external reasoning substrate, Canvas-CoT empowers the model to perform atomic, DOM-based CRUD operations. This architecture enables in-place state revisions without disrupting the surrounding context, allowing the model to explicitly maintain the "ground truth". Furthermore, we integrate a rendering-based critique loop that serves as a hard constraint validator, providing explicit visual feedback to resolve complex tasks that are difficult to articulate through text alone. Extensive experiments on VCode, RBench-V, and MathVista demonstrate that Canvas-CoT significantly outperforms existing baselines, establishing a new paradigm for context-efficient multimodal reasoning.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトはMLLM(Multimodal Large Language Models)の推論能力を大幅に向上させたが、線形テキストシーケンスのみに依存することは複雑なタスクのボトルネックのままである。
補助的な視覚要素がインターリーブされたとしても、1次元の非構造推論チェーン内で静的なスナップショットとして扱われることが多い。
局所的な誤りを修正するには、冗長な下流修正を生成するか、コンテキスト全体を再生する必要がある。
これにより、モデルが暗黙的に状態更新を管理し、追跡し、トークン消費と認知負荷を大幅に増加させます。
この制限は、特に幾何学やSVG設計のような高次元領域において、CoTのテキスト表現は明確な視覚的ガイダンスを欠き、モデルの推論精度をさらに制限する。
このギャップを埋めるために、 Canvas-CoT (textbf{Canvas-of-Thought) を導入します。
HTML Canvasを外部の推論基盤として活用することにより、Canvas-CoTはモデルにアトミックなDOMベースのCRUD操作を実行する権限を与える。
このアーキテクチャは、周囲のコンテキストを乱すことなく、インプレース状態のリビジョンを可能にし、モデルが"地上の真実"を明示的に維持することを可能にする。
さらに,テキストだけでは分かりにくい複雑なタスクを解決するための視覚的フィードバックを明示的に提供し,ハード制約バリデータとして機能するレンダリングベースの批判ループを統合する。
VCode、RBench-V、MathVistaの大規模な実験では、Canvas-CoTが既存のベースラインを大幅に上回っており、コンテキスト効率のマルチモーダル推論の新しいパラダイムを確立している。
関連論文リスト
- Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning [23.364264811510598]
CoT(Chain-of-Thought)の促進により、LLM(Large Language Models)の推論能力の解放に成功した。
Render-of-Thought (RoT) は、画像にテキストステップを描画することで推論チェーンを再構築する最初のフレームワークである。
提案手法は, 明示的なCoTに比べて3~4倍のトークン圧縮と相当な推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-21T08:09:25Z) - VisTIRA: Closing the Image-Text Modality Gap in Visual Math Reasoning via Structured Tool Integration [2.7403985180660784]
視覚言語モデル(VLM)は、同じ問題がテキストではなく画像として提示される場合、数学的推論においてテキストのみの言語モデルより遅れる。
本稿では、与えられた数学問題を(画像として)自然言語の有理数に分解することで、構造化された問題解決を可能にするツール統合推論フレームワークであるVisTIRAを紹介する。
ツール統合監視により画像ベース推論が向上し,OCRグラウンド化により,より小さなモデルのギャップをさらに狭めることができることを示す。
論文 参考訳(メタデータ) (2026-01-20T19:54:49Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Figure It Out: Improve the Frontier of Reasoning with Executable Visual States [53.77871196174248]
複雑な推論問題はしばしば、テキストに明示的にエンコードされていない暗黙の空間的および幾何学的関係を含む。
FIGRを導入し、エンドツーエンドの強化学習を通じて、実行可能な視覚構成を多ターン推論に統合する。
8つの挑戦的な数学ベンチマークの実験により、FIGRは強いテキストのみのチェーン・オブ・シークレット・ベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-12-30T15:39:11Z) - CRAFT: Continuous Reasoning and Agentic Feedback Tuning for Multimodal Text-to-Image Generation [0.0]
CRAFT(Continuous Reasoning and Agentic Feedback Tuning)は、マルチモーダル画像生成に構造化推論パラダイムをもたらす、トレーニング不要でモデルに依存しないフレームワークである。
コンポジション精度、テキストレンダリング、好みに基づく評価を一貫して改善する。
これらの改善は無視できる推論時間のオーバーヘッドに過ぎず、より小型または安価なモデルでより高価なシステムの品質にアプローチすることができる。
論文 参考訳(メタデータ) (2025-12-23T13:44:41Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Beyond the Linear Separability Ceiling: Aligning Representations in VLMs [2.561649173827544]
線形分離性シーリング(LSC)を中心とした診断フレームワークについて紹介する。
私たちは、ほとんどのモデルが、自身の表現を生成的に上回ることに失敗する、広範に広がる「アライメントギャップ」を明らかにする。
コントラスト目的の標準次トーケン予測を増強することにより、細調整法は休眠推論経路を活性化する。
論文 参考訳(メタデータ) (2025-07-10T09:23:32Z) - ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。
画像除去・分離方式のタスクチェイン・コンポジトリを提案する。
また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文 参考訳(メタデータ) (2025-06-04T10:06:32Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Relation Rectification in Diffusion Model [64.84686527988809]
本稿では,最初に生成できない関係を正確に表現するためにモデルを洗練することを目的とした,リレーション・リクティフィケーション(Relation Rectification)と呼ばれる新しいタスクを紹介する。
異種グラフ畳み込みネットワーク(HGCN)を利用した革新的な解を提案する。
軽量HGCNは、テキストエンコーダによって生成されたテキスト埋め込みを調整し、埋め込み空間におけるテキスト関係の正確な反映を保証する。
論文 参考訳(メタデータ) (2024-03-29T15:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。