論文の概要: Instruction Tuning of Large Language Models for Tabular Data Generation-in One Day
- arxiv url: http://arxiv.org/abs/2511.23220v1
- Date: Fri, 28 Nov 2025 14:26:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.927551
- Title: Instruction Tuning of Large Language Models for Tabular Data Generation-in One Day
- Title(参考訳): 語彙データ生成のための大規模言語モデルの1日以内の指導チューニング
- Authors: Milad Abdollahzadeh, Abdul Raheem, Zilong Zhao, Uzair Javaid, Kevin Yee, Nalam Venkata Abhishek, Tram Truong-Huu, Biplab Sikdar,
- Abstract要約: 表型データのLLM理解を改善するための有望な研究方向として,タブラル命令チューニングが登場した。
本研究では,表型データ生成能力向上のための指導指導の有効性について検討する。
実験の結果,A100 GPUを用いた7K命令のみを6時間以内で高品質なデータセットと命令チューニングを行うことで,最も有能な商用LCMであるGPT-4oと同等の表型データ生成性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 9.944627235801223
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Tabular instruction tuning has emerged as a promising research direction for improving LLMs understanding of tabular data. However, the majority of existing works only consider question-answering and reasoning tasks over tabular data, leaving tabular data generation largely unnoticed. In this work, for the first time, we explore the efficacy of instruction tuning in improving LLMs tabular data generation capabilities. More specifically, given the high data and computation requirements of tabular instruction tuning, we aim to address the possibility of instruction tuning for tabular data generation with limited data and computational resources. To achieve this, we first create a high-quality instruction dataset for tabular data, enabling efficient LLM comprehension. We then instruction-tune an open-source LLM (Llama3.1-8B-Instruct) on the training set of this dataset to improve its tabular data generation performance. Our experimental results show that by using our high-quality dataset and instruction-tuning on only 7K instructions with an A100 GPU, for less than 6 hours, we achieve tabular data generation performance on par with the most capable commercial LLM, GPT-4o.
- Abstract(参考訳): 表型データのLLM理解を改善するための有望な研究方向として,タブラル命令チューニングが登場した。
しかし、既存の研究の大部分は、表データに対する質問応答と推論タスクのみを考慮しており、表データ生成はほとんど気付かないままである。
本研究は,LLMの表型データ生成能力向上における命令チューニングの有効性を初めて検討する。
より具体的には、表型命令チューニングの高データおよび計算要求を考えると、限られたデータと計算資源を用いた表型データ生成のための命令チューニングの可能性に対処することを目的としている。
そこで我々はまず,表型データのための高品質な命令データセットを作成し,LLMの効率的な理解を可能にする。
次に、このデータセットのトレーニングセット上にオープンソースのLLM(Llama3.1-8B-Instruct)をチューニングし、表形式のデータ生成性能を改善する。
実験の結果,A100 GPUを用いた7K命令のみを6時間以内で高品質なデータセットと命令チューニングを行うことで,最も有能な商用LCMであるGPT-4oと同等の表型データ生成性能が得られることがわかった。
関連論文リスト
- TaP: A Taxonomy-Guided Framework for Automated and Scalable Preference Data Generation [50.319535974012]
大規模言語モデル(LLM)の教師付き微調整と選好微調整を行うには、高品質なデータセットが必要である。
教師付きおよび好みの微調整のためのほとんどのデータセットは英語で提供されている。
本稿では、アンダーラインtextbfTaxonomy-Guided underlinetextbfPreference Data Generationフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:45:28Z) - Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models [22.16558378953053]
我々は、人間による命令から得られた最先端の命令チューニングデータセットを構築した。
LLMは私たちのデータセットで微調整され、既存のデータセットで微調整されています。
分析によれば、新しい言語での命令チューニングにより、LLMは命令に従うことができるが、チューニングされたモデルは、その言語における文化固有の知識の欠如を顕著に示している。
論文 参考訳(メタデータ) (2025-03-31T04:28:38Z) - Cookbook: A framework for improving LLM generative abilities via programmatic data generating templates [57.29125360837203]
Cookbookはランダムトークン上の単純なパターンからなるトレーニングデータを生成するフレームワークである。
クックブック生成したデータの微調整により,対応するタスクの性能を最大52.7の精度で向上できることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:29:40Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - TabuLa: Harnessing Language Models for Tabular Data Synthesis [4.539846270369207]
Tabulaは、大きな言語モデル(LLM)の構造を利用する表形式のデータシンセサイザーである。
State-of-the-art (SOTA) の LLM とは異なり、Tabula は元々自然言語処理用に設計されたトレーニング済みのウェイトを捨てている。
実験により,Tabulaは現在のSOTA法と比較して優れた合成データユーティリティを実現していることが示された。
論文 参考訳(メタデータ) (2023-10-19T13:50:56Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。