論文の概要: Simple Vision-Language Math Reasoning via Rendered Text
- arxiv url: http://arxiv.org/abs/2511.11704v1
- Date: Wed, 12 Nov 2025 15:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.015629
- Title: Simple Vision-Language Math Reasoning via Rendered Text
- Title(参考訳): Rendered Text を用いた簡易視覚言語数学推論
- Authors: Matvey Skripkin, Elizaveta Goncharova, Andrey Kuznetsov,
- Abstract要約: 本稿では,視覚言語モデルを学習し,数学的な問題を解くための軽量で効果的なパイプラインを提案する。
この単純なテキスト・ツー・ビジョン拡張により、コンパクトなマルチモーダルアーキテクチャが最先端の推論精度を実現することができる。
- 参考スコア(独自算出の注目度): 7.237955967317942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a lightweight yet effective pipeline for training vision-language models to solve math problems by rendering LaTeX encoded equations into images and pairing them with structured chain-of-thought prompts. This simple text-to-vision augmentation enables compact multimodal architectures to achieve state-of-the-art reasoning accuracy. Through systematic ablations, we find that rendering fidelity and prompt design are the primary drivers of performance. Despite its simplicity, our approach consistently matches or surpasses both open-source and proprietary math-focused vision-language solvers on widely used benchmarks, while preserving broad general-domain competence - showing gains on tasks such as MMMU, ChartQA, and DocVQA of up to 20%.
- Abstract(参考訳): 本稿では、LaTeXエンコードされた方程式を画像に描画し、それらを構造化チェーン・オブ・シークレットと組み合わせることで、視覚言語モデルを訓練するための軽量で効果的なパイプラインを提案する。
この単純なテキスト・ツー・ビジョン拡張により、コンパクトなマルチモーダルアーキテクチャが最先端の推論精度を実現することができる。
体系的な改善を通じて、レンダリングの忠実さと迅速な設計がパフォーマンスの主要な要因であることがわかった。
その単純さにもかかわらず、我々のアプローチは、広く使われているベンチマークで、オープンソースとプロプライエタリな算数中心の視覚言語ソルバを一貫して組み合わせたり、超えたりしています。
関連論文リスト
- VEHME: A Vision-Language Model For Evaluating Handwritten Mathematics Expressions [11.210768330027674]
本稿では,手書き数学応答を高精度かつ解釈可能な推論トレースで評価するためのVEHME-a Vision-Language Modelを提案する。
VEHMEは、構造的推論データを用いた微調整と、モデル出力を多次元グレーディング目標と整合させる強化学習という、2段階の訓練パイプラインを統合している。
VEHMEは、オープンソースモデル間の最先端のパフォーマンスを達成し、プロプライエタリなシステムの精度にアプローチする。
論文 参考訳(メタデータ) (2025-10-26T19:03:27Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering [14.468507852394923]
チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
実環境における複雑なCQAタスク用に設計された新しいベンチマークであるChartMindを紹介する。
本稿では,重要な文脈要素の抽出に焦点をあてた文脈対応だがモデルに依存しないフレームワークであるChartLLMを提案する。
論文 参考訳(メタデータ) (2025-05-29T08:46:03Z) - Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning [122.81815833343026]
我々は、視覚的文書理解のために、視覚的に基底付けられたCoT推論を利用するように設計されたマルチモーダル推論フレームワークであるPoint-RFTを紹介した。
提案手法は2つの段階から構成される: まず、71Kの多様な視覚的推論問題からなるキュレートされたデータセットを用いてフォーマットの微調整を行い、それぞれが対応する視覚的要素に明示的に基づいた詳細なステップ・バイ・ステップの合理性でアノテートする。
ChartQAでは,テキストベースCoTのみに依存した強化微調整による精度83.92%を超え,精度を70.88%(言語微細化ベースライン)から90.04%に向上させる。
論文 参考訳(メタデータ) (2025-05-26T08:54:14Z) - Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Interpretable Neural Computation for Real-World Compositional Visual
Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。
このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。
GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文 参考訳(メタデータ) (2020-10-10T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。