論文の概要: JT-DA: Enhancing Data Analysis with Tool-Integrated Table Reasoning Large Language Models
- arxiv url: http://arxiv.org/abs/2512.06859v1
- Date: Sun, 07 Dec 2025 14:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.559483
- Title: JT-DA: Enhancing Data Analysis with Tool-Integrated Table Reasoning Large Language Models
- Title(参考訳): JT-DA:大規模言語モデルに基づくツール付きテーブルによるデータ分析の強化
- Authors: Ce Chi, Xing Wang, Zhendong Wang, Xiaofan Liu, Ce Li, Zhiyan Song, Chen Zhao, Kexin Yang, Boshen Shi, Jingjing Yang, Chao Deng, Junlan Feng,
- Abstract要約: JT-DA-8Bは、様々な現実世界のシナリオにまたがる複雑なテーブル推論タスクのために設計された、特殊な大規模言語モデルである。
我々は、29のパブリックテーブルQAデータセットと300万のテーブルを集約することにより、34の明確に定義されたテーブル推論タスクを備えた包括的で多様なトレーニングコーパスを構築した。
実験結果から,JT-DA-8Bは様々なテーブル推論タスクにおいて高い性能を示すことがわかった。
- 参考スコア(独自算出の注目度): 58.408398005993455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present JT-DA-8B (JiuTian Data Analyst 8B), a specialized large language model designed for complex table reasoning tasks across diverse real-world scenarios. To address the lack of high-quality supervision in tabular reasoning scenarios, we construct a comprehensive and diverse training corpus with 34 well-defined table reasoning tasks, by aggregating 29 public table QA datasets and 3 million tables. An automatic pipeline is proposed to generate realistic multi-step analytical tasks involving reasoning patterns. The model is trained upon open-source JT-Coder-8B model, an 8B-parameter decoder-only foundation model trained from scratch. In the training stage, we leverage LLM-based scoring and workflow-aligned filtering to distill high-quality, table-centric data. Both supervised fine-tuning (SFT) and Reinforcement learning (RL) are adopted to optimize our model. Afterwards, a four-stage table reasoning workflow is proposed, including table preprocessing, table sensing, tool-integrated reasoning, and prompt engineering, to improve model interpretability and execution accuracy. Experimental results show that JT-DA-8B achieves strong performance in various table reasoning tasks, demonstrating the effectiveness of data-centric generation and workflow-driven optimization.
- Abstract(参考訳): 本稿では,JT-DA-8B(JiuTian Data Analyst 8B)について述べる。
表表推論シナリオにおける高品質な監視の欠如に対処するため、29のパブリックテーブルQAデータセットと300万のテーブルを集約することにより、34の明確に定義されたテーブル推論タスクを備えた包括的で多様なトレーニングコーパスを構築した。
推論パターンを含む現実的な多段階解析タスクを生成するために,自動パイプラインを提案する。
このモデルは、オープンソースのJT-Coder-8Bモデルに基づいて訓練されている。
トレーニング段階では、LLMベースのスコアリングとワークフロー整合フィルタリングを利用して、高品質なテーブル中心のデータを蒸留する。
モデル最適化には,教師付き微調整(SFT)と強化学習(RL)が併用される。
その後、テーブル前処理、テーブルセンシング、ツール統合推論、プロンプトエンジニアリングを含む4段階のテーブル推論ワークフローを提案し、モデルの解釈可能性と実行精度を向上させる。
実験の結果、JT-DA-8Bは様々なテーブル推論タスクにおいて高い性能を示し、データ中心生成とワークフロー駆動最適化の有効性を実証した。
関連論文リスト
- Mixture-of-Minds: Multi-Agent Reinforcement Learning for Table Understanding [32.583090212983805]
テーブル推論を,計画,コーディング,回答の3つの専門的な役割に分解するマルチエージェントフレームワークを提案する。
我々は、Mixture-of-MindsがTableBenchで62.13%、OpenAI-o4-mini-highを上回り、かなりの利益をもたらすことを示した。
論文 参考訳(メタデータ) (2025-10-23T03:51:17Z) - TableMind: An Autonomous Programmatic Agent for Tool-Augmented Table Reasoning [10.267950603662776]
TableMindは、データ分析と正確な数値推論のために、セキュアなサンドボックス環境で、マルチターンツールの実行、書き込み、実行を自律的に実行する、ツール統合テーブル推論エージェントである。
これらの機能を実現するために、我々は強力な事前学習言語モデルの上に構築された2段階の微調整パラダイムを採用する。
論文 参考訳(メタデータ) (2025-09-08T02:00:31Z) - Reasoning-Table: Exploring Reinforcement Learning for Table Reasoning [24.624844234355734]
Reasoning-Tableは、テーブル推論への強化学習(RL)の最初の応用であり、最先端の性能を実現している。
Reasoning-Tableは大きな言語モデルを推論する堅牢なテーブルとして登場し、Claude-3.7-Sonnetのようなより大きなプロプライエタリなモデルを4.0%上回っている。
論文 参考訳(メタデータ) (2025-06-02T14:18:09Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - TART: An Open-Source Tool-Augmented Framework for Explainable Table-based Reasoning [61.14586098005874]
現在のLarge Language Models (LLM) は、テーブル構造を理解し、正確な数値推論を適用する能力に制限がある。
LLMと特殊なツールを統合するTART(Tool-Augmented Reasoning framework for Tables)を紹介した。
TARTには、正確なデータ表現を保証するテーブルフォーマッター、特定の計算ツールを開発するツールメーカー、説明可能性を維持するための説明ジェネレータの3つの重要なコンポーネントが含まれている。
論文 参考訳(メタデータ) (2024-09-18T06:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。