論文の概要: Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
- arxiv url: http://arxiv.org/abs/2509.09286v1
- Date: Thu, 11 Sep 2025 09:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.311405
- Title: Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
- Title(参考訳): Visual Programmability: チャート理解におけるコード・アズ・ノートのガイド
- Authors: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang,
- Abstract要約: 検証可能なシンボリックフォーマットでチャートの視覚情報を表現するためのCode-as-Thought(CaT)アプローチを提案する。
ビジュアルプログラマビリティ(Visual Programmability)は、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティである。
我々はこの概念を,視覚言語モデル(VLM)がCaT経路と直接視覚推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
- 参考スコア(独自算出の注目度): 37.44645754630439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.
- Abstract(参考訳): チャート理解は視覚言語モデル(VLM)の推論能力に対する重要なテストである。
事前のアプローチでは、外部ツールに依存して、事前に定義されたツールキットによって不安定で制約されるものや、テキストベースのチェーン・オブ・思想(CoT)のような単一の推論戦略をしばしば採用する微調整のスペシャリストモデルがある。
テキストベースの推論の中間段階の検証は困難であり、事実の正確性に報いる強化学習信号の使用が複雑になる。
これを解決するために,検証可能なシンボル形式でチャートの視覚情報を表現するためのCode-as-Thought (CaT)アプローチを提案する。
固定されたコードのみの実装は、シンボル表現が適さない複雑なチャートで一貫して失敗します。
この発見により、私たちはVisual Programmabilityを導入しました。これは、チャート検索ペアがコードや直接視覚分析でよりよく解けるかどうかを判断する学習可能なプロパティです。
我々はこの概念を,VLMがCaT経路と直接視覚的推論経路のどちらを選択するかを学習する適応的なフレームワークで実装する。
モデルの選択方針は、新しい二重回帰システムを用いて強化学習を用いて訓練される。
本システムは,データ精度の報奨と数値幻覚の防止,および各戦略をいつ使用するかをモデルに教える決定報酬を組み合わせることで,単一推論モードへのデフォルト化を防止する。
さまざまなチャートに基づくベンチマークで、実験は強力で堅牢なパフォーマンスを示します。
我々の研究は、VLMを推論だけでなく、各タスクに最適な推論経路を動的に選択する方法も教えることができることを示している。
関連論文リスト
- MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering [12.285453136336507]
本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-11T18:55:36Z) - ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding [18.67532755744138]
チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
論文 参考訳(メタデータ) (2025-05-25T10:21:29Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models [0.0]
本稿では,チャート要約のためのEnd-to-End Visual Chain-of-Thought (V-CoT)を提案する。
本手法では,LVLMを直接トレーニングして,チャート画像の処理とテキスト要約をエンドツーエンドで生成する。
我々は、視覚的推論ステップを実行するためにLVLMを暗黙的に誘導する、微調整による視覚的連鎖機構を組み込んだ。
論文 参考訳(メタデータ) (2025-02-24T19:13:45Z) - VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solution Reasoning [13.011899331656018]
VProChartは、CQA(Chart Question Answering)の課題に対処するために設計された新しいフレームワークである。
軽量な視覚知覚アライメントエージェント(VPAgent)と,プログラム型ソリューション推論アプローチを統合している。
VProChartは既存のメソッドよりも優れており、チャートによる理解と推論の能力を強調している。
論文 参考訳(メタデータ) (2024-09-03T07:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。