論文の概要: Can GRPO Boost Complex Multimodal Table Understanding?
- arxiv url: http://arxiv.org/abs/2509.16889v2
- Date: Tue, 23 Sep 2025 02:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 11:50:03.926795
- Title: Can GRPO Boost Complex Multimodal Table Understanding?
- Title(参考訳): GRPOは複雑なマルチモーダルテーブル理解を促進することができるか?
- Authors: Xiaoqiang Kang, Shengen Wu, Zimu Wang, Yilin Liu, Xiaobo Jin, Kaizhu Huang, Wei Wang, Yutao Yue, Xiaowei Huang, Qiufeng Wang,
- Abstract要約: Table-R1は、マルチモーダルテーブル理解のための3段階強化学習フレームワークである。
これにより、ホールドインとホールドアウトの両方のデータセットで明らかにパフォーマンスを推論するモデルのテーブルが向上する可能性がある。
- 参考スコア(独自算出の注目度): 41.72642230279542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing table understanding methods face challenges due to complex table structures and intricate logical reasoning. While supervised finetuning (SFT) dominates existing research, reinforcement learning (RL), such as Group Relative Policy Optimization (GRPO), has shown promise but struggled with low initial policy accuracy and coarse rewards in tabular contexts. In this paper, we introduce Table-R1, a three-stage RL framework that enhances multimodal table understanding through: (1) Warm-up that prompts initial perception and reasoning capabilities, (2) Perception Alignment GRPO (PA-GRPO), which employs continuous Tree-Edit-Distance Similarity (TEDS) rewards for recognizing table structures and contents, and (3) Hint-Completion GRPO (HC-GRPO), which utilizes fine-grained rewards of residual steps based on the hint-guided question. Extensive experiments demonstrate that Table-R1 can boost the model's table reasoning performance obviously on both held-in and held-out datasets, outperforming SFT and GRPO largely. Notably, Qwen2-VL-7B with Table-R1 surpasses larger specific table understanding models (e.g., Table-LLaVA 13B), even achieving comparable performance to the closed-source model GPT-4o on held-in datasets, demonstrating the efficacy of each stage of Table-R1 in overcoming initialization bottlenecks and reward sparsity, thereby advancing robust multimodal table understanding.
- Abstract(参考訳): 既存のテーブル理解手法は、複雑なテーブル構造と複雑な論理的推論による課題に直面している。
教師付き微調整(SFT)が既存の研究を統括する一方で、グループ相対政策最適化(GRPO)のような強化学習(RL)は有望であるが、表の文脈における初期政策の精度の低下と粗い報酬に苦慮している。
本稿では,(1)初期知覚と推論能力を促進するウォームアップ,(2)連続木編集距離類似性(TEDS)報酬を用いた知覚アライメントGRPO(PA-GRPO),(3)ヒント付き質問に基づく残歩の微妙な報酬を利用するHint-Completion GRPO(HC-GRPO)の3段階のRLフレームワークであるTable-R1を紹介する。
大規模な実験により、Table-R1は、ホールドインデータセットとホールドアウトデータセットの両方で明らかにモデルテーブルの推論性能を向上し、SFTとGRPOを大きく上回ることを示した。
特に、Table-R1のQwen2-VL-7Bは、より大きな特定のテーブル理解モデル(例えば、Table-LLaVA 13B)を超え、ホールドインデータセット上のクローズドソースモデルGPT-4oに匹敵するパフォーマンスを達成し、初期化ボトルネックと報酬空間を克服する上でTable-R1の各ステージの有効性を実証し、堅牢なマルチモーダルテーブル理解を実現する。
関連論文リスト
- Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - Multimodal Tabular Reasoning with Privileged Structured Information [67.40011423365712]
ブリッジインfOrmation (sc Turbo) を用いたタブウラー推論(TabUlar Reasoning)について紹介する。
sc TurboはDeepSeek-R1をベースにした構造対応の推論トレースジェネレータの恩恵を受ける。
sc Turboは、複数のデータセットで最先端のパフォーマンス(+7.2%対以前のSOTA)を達成する。
論文 参考訳(メタデータ) (2025-06-04T15:46:30Z) - Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning [24.624844234355734]
Reasoning-Tableは、テーブル推論への強化学習(RL)の最初の応用であり、最先端の性能を実現している。
Reasoning-Tableは大きな言語モデルを推論する堅牢なテーブルとして登場し、Claude-3.7-Sonnetのようなより大きなプロプライエタリなモデルを4.0%上回っている。
論文 参考訳(メタデータ) (2025-06-02T14:18:09Z) - Table-R1: Inference-Time Scaling for Table Reasoning [25.481170375825812]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - Table-R1: Region-based Reinforcement Learning for Table Understanding [34.213738690633896]
本稿では,テーブル理解を高める新しい強化学習手法であるTable-R1を提案する。
提案手法では,Rerea-Enhanced Supervised Fine-Tuning (RE-SFT) を用いて,関連するテーブル領域を識別するモデルをガイドする。
実験の結果、Table-R1は複数のベースモデルで平均14.36ポイントの性能向上を達成した。
論文 参考訳(メタデータ) (2025-05-18T13:40:18Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。