論文の概要: Table-R1: Region-based Reinforcement Learning for Table Understanding
- arxiv url: http://arxiv.org/abs/2505.12415v1
- Date: Sun, 18 May 2025 13:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.21964
- Title: Table-R1: Region-based Reinforcement Learning for Table Understanding
- Title(参考訳): Table-R1: テーブル理解のための領域ベース強化学習
- Authors: Zhenhe Wu, Jian Yang, Jiaheng Liu, Xianjie Wu, Changzai Pan, Jie Zhang, Yu Zhao, Shuangyong Song, Yongxiang Li, Zhoujun Li,
- Abstract要約: 本稿では,テーブル理解を高める新しい強化学習手法であるTable-R1を提案する。
提案手法では,Rerea-Enhanced Supervised Fine-Tuning (RE-SFT) を用いて,関連するテーブル領域を識別するモデルをガイドする。
実験の結果、Table-R1は複数のベースモデルで平均14.36ポイントの性能向上を達成した。
- 参考スコア(独自算出の注目度): 34.213738690633896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables present unique challenges for language models due to their structured row-column interactions, necessitating specialized approaches for effective comprehension. While large language models (LLMs) have demonstrated potential in table reasoning through prompting and techniques like chain-of-thought (CoT) and program-of-thought (PoT), optimizing their performance for table question answering remains underexplored. In this paper, we introduce region-based Table-R1, a novel reinforcement learning approach that enhances LLM table understanding by integrating region evidence into reasoning steps. Our method employs Region-Enhanced Supervised Fine-Tuning (RE-SFT) to guide models in identifying relevant table regions before generating answers, incorporating textual, symbolic, and program-based reasoning. Additionally, Table-Aware Group Relative Policy Optimization (TARPO) introduces a mixed reward system to dynamically balance region accuracy and answer correctness, with decaying region rewards and consistency penalties to align reasoning steps. Experiments show that Table-R1 achieves an average performance improvement of 14.36 points across multiple base models on three benchmark datasets, even outperforming baseline models with ten times the parameters, while TARPO reduces response token consumption by 67.5% compared to GRPO, significantly advancing LLM capabilities in efficient tabular reasoning.
- Abstract(参考訳): テーブルは、その構造された行列間相互作用のために言語モデルに固有の課題を示し、効果的な理解のために特別なアプローチを必要とする。
大規模言語モデル (LLMs) は、表推論において、チェーン・オブ・シークレット (CoT) やプログラム・オブ・シークレット (PoT) のようなプロンプトや技法を通じて可能性を示してきたが、テーブル質問応答のパフォーマンスを最適化するには、まだ未定である。
本稿では,地域証拠を推論ステップに統合することでLLMテーブル理解を向上させる新しい強化学習手法であるTable-R1を提案する。
提案手法では, テキスト, 記号, プログラムベースの推論を取り入れ, 回答を生成する前に, 関連テーブル領域を識別するモデルにRE-SFT(Regional-Enhanced Supervised Fine-Tuning) を用いる。
さらに、TARPO(Table-Aware Group Relative Policy Optimization)では、領域の正確性と回答の正しさを動的にバランスする混合報酬システムを導入している。
実験の結果、TARPOはGRPOと比較して応答トークンの消費を67.5%減らし、効率的な表式推論においてLLM能力を著しく向上させる一方、TARPOは10倍のパラメータでベースラインモデルよりも優れていた。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - ALTER: Augmentation for Large-Table-Based Reasoning [5.164923314261229]
ALTER(Augmentation for Large-Table-Based Reasoning)は、NL (Free-form Natural Language) とNL (Augmentation for Large-Table-Based Reasoning) の双方の質問において、潜在的な拡張可能性を活用するために設計されたフレームワークである。
テーブルからの関連データの小さなサブセットのみを利用することで、ALTERはテーブルベースの推論ベンチマークで優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-03T12:34:45Z) - LORE++: Logical Location Regression Network for Table Structure
Recognition with Pre-training [45.80561537971478]
表構造認識(TSR)は、画像中のテーブルを機械で理解可能な形式に抽出することを目的としている。
我々は、論理的位置回帰問題としてTSRをモデル化し、LOREと呼ばれる新しいTSRフレームワークを提案する。
提案するLOREは概念的にシンプルで、訓練が容易で、TSRの他のパラダイムよりも正確です。
論文 参考訳(メタデータ) (2024-01-03T03:14:55Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。