論文の概要: Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2509.17589v1
- Date: Mon, 22 Sep 2025 11:13:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.333052
- Title: Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models
- Title(参考訳): Table2LaTeX-RL:強化多モーダル言語モデルによるテーブル画像からの高忠実LaTeXコード生成
- Authors: Jun Ling, Yao Qi, Tao Huang, Shibo Zhou, Yanqin Huang, Jiang Yang, Ziqi Song, Ying Zhou, Yang Yang, Heng Tao Shen, Peng Wang,
- Abstract要約: 視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
- 参考スコア(独自算出の注目度): 53.03670032402846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the task of table image to LaTeX code generation, with the goal of automating the reconstruction of high-quality, publication-ready tables from visual inputs. A central challenge of this task lies in accurately handling complex tables -- those with large sizes, deeply nested structures, and semantically rich or irregular cell content -- where existing methods often fail. We begin with a comprehensive analysis, identifying key challenges and highlighting the limitations of current evaluation protocols. To overcome these issues, we propose a reinforced multimodal large language model (MLLM) framework, where a pre-trained MLLM is fine-tuned on a large-scale table-to-LaTeX dataset. To further improve generation quality, we introduce a dual-reward reinforcement learning strategy based on Group Relative Policy Optimization (GRPO). Unlike standard approaches that optimize purely over text outputs, our method incorporates both a structure-level reward on LaTeX code and a visual fidelity reward computed from rendered outputs, enabling direct optimization of the visual output quality. We adopt a hybrid evaluation protocol combining TEDS-Structure and CW-SSIM, and show that our method achieves state-of-the-art performance, particularly on structurally complex tables, demonstrating the effectiveness and robustness of our approach.
- Abstract(参考訳): 本研究では,高品質で公開可能なテーブルを視覚的入力から再構築することを目的として,テーブルイメージのタスクをLaTeXコード生成に適用する。
このタスクの中心的な課題は、複雑なテーブル — 大きなサイズ、深くネストされた構造、セマンティックにリッチで不規則なセルコンテンツ — を正確に処理することにある。
まず、主要な課題を特定し、現在の評価プロトコルの限界を強調する包括的な分析から始める。
これらの課題を解決するために,大規模なテーブル・トゥ・ラテXデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル・大規模言語モデル(MLLM)フレームワークを提案する。
生成品質をさらに向上するため,グループ相対政策最適化(GRPO)に基づく2元回帰強化学習戦略を導入する。
テキスト出力を純粋に最適化する標準的な手法とは異なり、この手法はLaTeX符号に構造レベルの報酬と、描画された出力から計算された視覚的忠実度報酬の両方を取り入れ、視覚的出力品質の直接最適化を可能にする。
我々は、TEDS-StructureとCW-SSIMを組み合わせたハイブリッド評価プロトコルを採用し、その手法が最先端の性能、特に構造的に複雑なテーブル上で達成できることを示し、我々のアプローチの有効性と堅牢性を示す。
関連論文リスト
- TableDART: Dynamic Adaptive Multi-Modal Routing for Table Understanding [52.59372043981724]
TableDARTはトレーニング効率のよいフレームワークで、事前トレーニングされた単一モダリティモデルを再利用することでマルチモーダルビューを統合する。
さらに,テキストモデルと画像モデルからの出力を解析し,モーダル間知識統合のための新しいエージェントを提案する。
論文 参考訳(メタデータ) (2025-09-18T07:00:13Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - LLM driven Text-to-Table Generation through Sub-Tasks Guidance and Iterative Refinement [1.373677542041849]
本稿では,新しいプロンプト技術を活用したLarge Language Models (LLM) によるテキスト・ツー・テーブル生成のための効率的なシステムを提案する。
このカスタムタスク分解により、モデルが段階的に問題に対処し、生成されたテーブルの品質を向上させることができることを示す。
提案手法は,パブリックドメインで利用可能な2つの複雑なテキスト・テーブル生成データセットのベースラインと比較して,強力な結果が得られる。
論文 参考訳(メタデータ) (2025-08-12T05:37:12Z) - Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance [8.83042313837811]
本稿では,人為的な関係知識を活用して,スキーマリンクとジョインパスを明示的にエンコードするグラフベースのフレームワークを提案する。
自然言語クエリが与えられた場合,提案手法は解析可能な推論チェーンを構築するためにグラフを検索し,プルーニングとサブパスマージ戦略によって支援する。
標準ベンチマークと現実的な大規模データセットの両方の実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2025-06-04T20:21:52Z) - Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement [16.22363384653305]
MLLM(Multimodal Large Language Models)は、きめ細かい視覚解析、正確なコード合成、堅牢なクロスモーダル推論を行う。
本稿では、フィードバック駆動の2つのモダリティ報酬機構と反復的な嗜好学習を組み合わせた2つの嗜好誘導改善フレームワークを提案する。
本フレームワークは汎用MLLMの性能を大幅に向上させ,高品質なプロットコードを生成する。
論文 参考訳(メタデータ) (2025-04-03T07:51:20Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Online Multi-Task Learning with Recursive Least Squares and Recursive Kernel Methods [50.67996219968513]
本稿では,オンラインマルチタスク学習(MTL)回帰問題に対する2つの新しいアプローチを紹介する。
入力空間の次元の2次パースタンスコストで精度よく近似的な再帰を実現する。
我々は,実世界の風速予測ケーススタディにおいて,オンラインMTL法と他の競技者との比較を行った。
論文 参考訳(メタデータ) (2023-08-03T01:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。