論文の概要: TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.08646v1
- Date: Tue, 10 Jun 2025 09:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.26549
- Title: TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning
- Title(参考訳): TableDreamer: テーブルインストラクションチューニングのためのスクラッチからのプログレッシブおよび弱み誘導データ合成
- Authors: Mingyu Zheng, Zhifan Feng, Jia Wang, Lanrui Wang, Zheng Lin, Yang Hao, Weiping Wang,
- Abstract要約: TableDreamerは、テーブルインストラクションチューニングのための、プログレッシブで弱いガイド付きデータ合成フレームワークである。
Llama3.1-8B-インストラクトの平均精度は11.62%(49.07%から60.69%)、合成データは27K GPT-4oである。
これは、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 18.178908245791582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the commendable progress of recent LLM-based data synthesis methods, they face two limitations in generating table instruction tuning data. First, they can not thoroughly explore the vast input space of table understanding tasks, leading to limited data diversity. Second, they ignore the weaknesses in table understanding ability of the target LLM and blindly pursue the increase of data quantity, resulting in suboptimal data efficiency. In this paper, we introduce a progressive and weakness-guided data synthesis framework tailored for table instruction tuning, named TableDreamer, to mitigate the above issues. Specifically, we first synthesize diverse tables and related instructions as seed data, and then perform an iterative exploration of the input space under the guidance of the newly identified weakness data, which eventually serve as the final training data for fine-tuning the target LLM. Extensive experiments on 10 tabular benchmarks demonstrate the effectiveness of the proposed framework, which boosts the average accuracy of Llama3.1-8B-instruct by 11.62% (49.07% to 60.69%) with 27K GPT-4o synthetic data and outperforms state-of-the-art data synthesis baselines which use more training data. The code and data is available at https://github.com/SpursGoZmy/TableDreamer
- Abstract(参考訳): 近年のLCMに基づくデータ合成手法の進歩にもかかわらず、テーブル命令のチューニングデータを生成する際の2つの制限に直面している。
まず、テーブル理解タスクの膨大な入力空間を徹底的に探索することができないため、データの多様性が制限される。
第二に、LLMのテーブル理解能力の弱点を無視し、データ量の増加を盲目的に追求し、データ効率を最適以下にする。
本稿では,テーブル命令のチューニングに特化して,テーブルドレーマー(TableDreamer)という,プログレッシブで弱みに富んだデータ合成フレームワークを提案する。
具体的には、まず、種データとして多様なテーブルや関連命令を合成し、次に新たに同定された弱点データのガイダンスに基づいて入力空間を反復的に探索し、最終的にターゲットLLMを微調整するための最終訓練データとして機能する。
10の表型ベンチマークに関する大規模な実験は、Llama3.1-8Bインストラクトの平均精度を11.62%(49.07%から60.69%)向上させ、27K GPT-4o合成データを使用し、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインを上回る性能を示す。
コードとデータはhttps://github.com/SpursGoZmy/TableDreamerで公開されている。
関連論文リスト
- TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.539846270369207]
Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。