論文の概要: $A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement
- arxiv url: http://arxiv.org/abs/2507.20890v1
- Date: Mon, 28 Jul 2025 14:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.166153
- Title: $A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement
- Title(参考訳): A^2R^2$:注意ガイドによる視覚的推論によるImg2LaTeX変換の促進
- Authors: Zhecheng Li, Guoxian Song, Yiwei Wang, Zhen Xiong, Junsong Yuan, Yujun Cai,
- Abstract要約: 視覚言語モデル(VLM)は、様々な視覚的理解タスクにおいて強い性能を示す。
A2R2$:Advancing Img2La Conversion via Visual Reasoning with Attention-Guided Refinementを提案する。
有効評価のために,1,100個の慎重にキュレートされた,挑戦的なサンプルからなる新しいデータセットImg2La-TexHard-1Kを導入する。
- 参考スコア(独自算出の注目度): 48.856390495568114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Img2LaTeX is a practically significant task that involves converting mathematical expressions or tabular data from images into LaTeX code. In recent years, vision-language models (VLMs) have demonstrated strong performance across a variety of visual understanding tasks, owing to their generalization capabilities. While some studies have explored the use of VLMs for the Img2LaTeX task, their performance often falls short of expectations. Empirically, VLMs sometimes struggle with fine-grained visual elements, leading to inaccurate LaTeX predictions. To address this challenge, we propose $A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement, a framework that effectively integrates attention localization and iterative refinement within a visual reasoning framework, enabling VLMs to perform self-correction and progressively improve prediction quality. For effective evaluation, we introduce a new dataset, Img2LaTex-Hard-1K, consisting of 1,100 carefully curated and challenging examples designed to rigorously evaluate the capabilities of VLMs within this task domain. Extensive experimental results demonstrate that: (1) $A^2R^2$ significantly improves model performance across six evaluation metrics spanning both textual and visual levels, consistently outperforming other baseline methods; (2) Increasing the number of inference rounds yields notable performance gains, underscoring the potential of $A^2R^2$ in test-time scaling scenarios; (3) Ablation studies and human evaluations validate the practical effectiveness of our approach, as well as the strong synergy among its core components during inference.
- Abstract(参考訳): Img2LaTeXは、画像から数式や表形式のデータをLaTeXコードに変換するという、事実上重要なタスクである。
近年,視覚言語モデル (VLM) は,その一般化能力から,様々な視覚的理解タスクにおいて高い性能を示した。
Img2LaTeXタスクにおけるVLMの使用を調査する研究もあるが、その性能は期待に届かなかった。
経験的に、VLMは時に微細な視覚要素と苦労し、不正確なLaTeX予測をもたらす。
A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement, このフレームワークは、視覚的推論フレームワークにおいて、注意のローカライゼーションと反復的な改善を効果的に統合し、VLMが自己補正を行い、予測品質を漸進的に改善する。
有効評価のために,本タスク領域内のVLMの機能を厳格に評価するために,1,100個の慎重にキュレートされた,挑戦的な例からなる新しいデータセットImg2LaTex-Hard-1Kを導入する。
実験結果から,(1)A^2R^2$は,テキストレベルと視覚レベルにまたがる6つの評価指標のモデル性能を著しく向上し,他のベースライン法より一貫して向上すること,(2)A^2R^2$がテスト時間スケーリングシナリオにおいて有意な性能向上をもたらすこと,(3)A^2R^2$の可能性,(3)推論中のコアコンポーネント間の強力な相乗効果,などの結果が得られた。
関連論文リスト
- Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization [49.2338910653152]
VLM(Vision-Constrained Model)は、ラベル付きデータが最小限に抑えられたリッチテキスト情報を活用することで、様々なタスクで顕著な成功を収めた。
知識蒸留(KD)は、この問題に対して確立された解決策を提供するが、近年のVLMからのKDアプローチでは、多段階のトレーニングや追加のチューニングがしばしば行われている。
本稿では,VLMの知識を,半言語設定でコンパクトなタスク固有モデルに伝達する,シンプルで効果的なKDフレームワークであるmathbftextttDHO$を提案する。
論文 参考訳(メタデータ) (2025-05-12T15:39:51Z) - IGDA: Interactive Graph Discovery through Large Language Model Agents [6.704529554100875]
大規模な言語モデル(textbfLLMs$)が発見の強力な方法として登場した。
我々は既存の数値駆動型手法を補完するグラフ発見のための強力な手法として$textbfIGDA$を提案する。
論文 参考訳(メタデータ) (2025-02-24T14:24:27Z) - Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。
彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。
我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文 参考訳(メタデータ) (2025-02-17T06:54:49Z) - Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。
本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。
本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文 参考訳(メタデータ) (2025-01-11T04:08:44Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。