論文の概要: TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning
- arxiv url: http://arxiv.org/abs/2506.08646v1
- Date: Tue, 10 Jun 2025 09:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.26549
- Title: TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning
- Title(参考訳): TableDreamer: テーブルインストラクションチューニングのためのスクラッチからのプログレッシブおよび弱み誘導データ合成
- Authors: Mingyu Zheng, Zhifan Feng, Jia Wang, Lanrui Wang, Zheng Lin, Yang Hao, Weiping Wang,
- Abstract要約: TableDreamerは、テーブルインストラクションチューニングのための、プログレッシブで弱いガイド付きデータ合成フレームワークである。
Llama3.1-8B-インストラクトの平均精度は11.62%(49.07%から60.69%)、合成データは27K GPT-4oである。
これは、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインよりも優れています。
- 参考スコア(独自算出の注目度): 18.178908245791582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the commendable progress of recent LLM-based data synthesis methods, they face two limitations in generating table instruction tuning data. First, they can not thoroughly explore the vast input space of table understanding tasks, leading to limited data diversity. Second, they ignore the weaknesses in table understanding ability of the target LLM and blindly pursue the increase of data quantity, resulting in suboptimal data efficiency. In this paper, we introduce a progressive and weakness-guided data synthesis framework tailored for table instruction tuning, named TableDreamer, to mitigate the above issues. Specifically, we first synthesize diverse tables and related instructions as seed data, and then perform an iterative exploration of the input space under the guidance of the newly identified weakness data, which eventually serve as the final training data for fine-tuning the target LLM. Extensive experiments on 10 tabular benchmarks demonstrate the effectiveness of the proposed framework, which boosts the average accuracy of Llama3.1-8B-instruct by 11.62% (49.07% to 60.69%) with 27K GPT-4o synthetic data and outperforms state-of-the-art data synthesis baselines which use more training data. The code and data is available at https://github.com/SpursGoZmy/TableDreamer
- Abstract(参考訳): 近年のLCMに基づくデータ合成手法の進歩にもかかわらず、テーブル命令のチューニングデータを生成する際の2つの制限に直面している。
まず、テーブル理解タスクの膨大な入力空間を徹底的に探索することができないため、データの多様性が制限される。
第二に、LLMのテーブル理解能力の弱点を無視し、データ量の増加を盲目的に追求し、データ効率を最適以下にする。
本稿では,テーブル命令のチューニングに特化して,テーブルドレーマー(TableDreamer)という,プログレッシブで弱みに富んだデータ合成フレームワークを提案する。
具体的には、まず、種データとして多様なテーブルや関連命令を合成し、次に新たに同定された弱点データのガイダンスに基づいて入力空間を反復的に探索し、最終的にターゲットLLMを微調整するための最終訓練データとして機能する。
10の表型ベンチマークに関する大規模な実験は、Llama3.1-8Bインストラクトの平均精度を11.62%(49.07%から60.69%)向上させ、27K GPT-4o合成データを使用し、より多くのトレーニングデータを使用する最先端のデータ合成ベースラインを上回る性能を示す。
コードとデータはhttps://github.com/SpursGoZmy/TableDreamerで公開されている。
関連論文リスト
- GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction [9.784347635082232]
本稿では,現実的なタブラリデータを生成するためのGReaTERを提案する。
GReaTERは、データセマンティックエンハンスメントシステムとクロステーブル接続方法を含む。
GReaTERはGReaTフレームワークより優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-03-19T04:16:05Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Towards Better Understanding Table Instruction Tuning: Decoupling the Effects from Data versus Models [62.47618742274461]
既存の公開トレーニングデータセットに基づいて、Mistral、OLMo、Phiファミリーからベースモデルを微調整します。
我々のレプリケーションは、既存のテーブルLLMと同等以上のパフォーマンスを実現しています。
トレーニングデータとベースモデルのコントリビューションを分離し、個々の影響に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-01-24T18:50:26Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.539846270369207]
Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。