論文の概要: Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
- arxiv url: http://arxiv.org/abs/2506.06137v1
- Date: Fri, 06 Jun 2025 14:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.52378
- Title: Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models
- Title(参考訳): 表-r1:小言語モデルにおけるプログラム型テーブル推論のための自己教師付き強化学習
- Authors: Rihui Jin, Zheyu Xin, Xing Xie, Zuoyi Li, Guilin Qi, Yongrui Chen, Xinbang Dai, Tongtong Wu, Gholamreza Haffari,
- Abstract要約: 表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 52.94091440130039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table reasoning (TR) requires structured reasoning over semi-structured tabular data and remains challenging, particularly for small language models (SLMs, e.g., LLaMA-8B) due to their limited capacity compared to large LMs (LLMs, e.g., GPT-4o). To narrow this gap, we explore program-based TR (P-TR), which circumvents key limitations of text-based TR (T-TR), notably in numerical reasoning, by generating executable programs. However, applying P-TR to SLMs introduces two challenges: (i) vulnerability to heterogeneity in table layouts, and (ii) inconsistency in reasoning due to limited code generation capability. We propose Table-r1, a two-stage P-TR method designed for SLMs. Stage 1 introduces an innovative self-supervised learning task, Layout Transformation Inference, to improve tabular layout generalization from a programmatic view. Stage 2 adopts a mix-paradigm variant of Group Relative Policy Optimization, enhancing P-TR consistency while allowing dynamic fallback to T-TR when needed. Experiments on four TR benchmarks demonstrate that Table-r1 outperforms all SLM-based methods, achieving at least a 15% accuracy improvement over the base model (LLaMA-8B) across all datasets and reaching performance competitive with LLMs.
- Abstract(参考訳): 表推論(TR)は半構造化の表データに対する構造化推論を必要とし、特に小言語モデル(SLMs, eg , LLaMA-8B)では大きなLM(LLMs, eg , GPT-4o)と比較して限界があるため、依然として困難である。
このギャップを狭めるために,テキストベースTR (T-TR) の重要な制限を回避するプログラムベースTR (P-TR) を探索する。
しかし、SLMへのP-TRの適用には2つの課題がある。
(i)表レイアウトの不均一性に対する脆弱性、及び
(ii)コード生成能力の制限による推論の不整合。
SLM用に設計された2段P-TR法であるTable-r1を提案する。
ステージ1では、プログラム的な視点から表レイアウトの一般化を改善するために、革新的な自己教師型学習タスクであるレイアウト変換推論を導入する。
ステージ2では、グループ相対ポリシー最適化の混合パラダイムが採用され、P-TR一貫性が向上し、必要に応じてT-TRへの動的フォールバックが可能である。
4つのTRベンチマークの実験では、Table-r1は全てのSLMベースの手法より優れており、全てのデータセットにわたるベースモデル(LLaMA-8B)よりも少なくとも15%精度が向上し、LLMと競合する性能に達した。
関連論文リスト
- SHARE: An SLM-based Hierarchical Action CorREction Assistant for Text-to-SQL [18.493226915913638]
テキスト・トゥ・コレクションのためのSLMに基づく階層的行動補正アシスタントSHAREを提案する。
SHAREはシーケンシャルパイプラインで3つの特殊小言語モデル(SLM)を編成する。
実験により,SHAREは様々なLSMに対して堅牢性を示しながら,自己補正能力を効果的に向上することが示された。
論文 参考訳(メタデータ) (2025-05-31T04:51:12Z) - Table-R1: Inference-Time Scaling for Table Reasoning [25.481170375825812]
推論時間スケーリングを実現するための2つのポストトレーニング戦略を開発し評価する。
蒸留では,DeepSeek-R1 が生成した推論トレースの大規模データセットを導入する。
RLVRではタスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを得る。
論文 参考訳(メタデータ) (2025-05-29T16:28:50Z) - Table-R1: Region-based Reinforcement Learning for Table Understanding [34.213738690633896]
本稿では,テーブル理解を高める新しい強化学習手法であるTable-R1を提案する。
提案手法では,Rerea-Enhanced Supervised Fine-Tuning (RE-SFT) を用いて,関連するテーブル領域を識別するモデルをガイドする。
実験の結果、Table-R1は複数のベースモデルで平均14.36ポイントの性能向上を達成した。
論文 参考訳(メタデータ) (2025-05-18T13:40:18Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。