論文の概要: Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai
- arxiv url: http://arxiv.org/abs/2411.15484v1
- Date: Sat, 23 Nov 2024 07:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:52.355403
- Title: Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai
- Title(参考訳): インストラクションチューニング LLM のためのシードフリー合成データ生成フレームワーク:タイの事例研究
- Authors: Parinthapat Pengpun, Can Udomcharoenchaikit, Weerayut Buaphet, Peerat Limkonchotiwat,
- Abstract要約: タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
- 参考スコア(独自算出の注目度): 5.670682861458055
- License:
- Abstract: We present a synthetic data approach for instruction-tuning large language models (LLMs) for low-resource languages in a data-efficient manner, specifically focusing on Thai. We identify three key properties that contribute to the effectiveness of instruction-tuning datasets: fluency, diversity, and cultural context. We propose a seed-data-free framework for generating synthetic instruction-tuning data that incorporates these essential properties. Our framework employs an LLM to generate diverse topics, retrieve relevant contexts from Wikipedia, and create instructions for various tasks, such as question answering, summarization, and conversation. The experimental results show that our best-performing synthetic dataset, which incorporates all three key properties, achieves competitive performance using only 5,000 instructions when compared to state-of-the-art Thai LLMs trained on hundreds of thousands of instructions. Our code and dataset are publicly available at https://github.com/parinzee/seed-free-synthetic-instruct.
- Abstract(参考訳): タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
そこで本研究では,これらの基本特性を組み込んだ合成命令チューニングデータを生成するためのシードデータフリーフレームワークを提案する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
実験結果から,3つの重要な特性をすべて組み込んだ最適な合成データセットは,数十万の命令で訓練されたタイのLLMと比較して,5000の命令のみを用いて競合性能を達成していることがわかった。
私たちのコードとデータセットはhttps://github.com/parinzee/seed-free-synthetic-instructで公開されています。
関連論文リスト
- ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification [27.023332376571677]
ARISEは、規則を反復的に導き、テキスト分類のための合成データを生成するフレームワークである。
我々は、構文的n-グラムの帰納的一般化により規則を誘導し、補完的な監督源を捉えることができる。
論文 参考訳(メタデータ) (2025-02-09T14:39:01Z) - AIDE: Task-Specific Fine Tuning with Attribute Guided Multi-Hop Data Expansion [15.916595953695603]
特定のタスクのための微調整された大型言語モデル(LLM)には、タスクに関連する高品質で多様なトレーニングデータが必要である。
近年の研究では、LLMを利用してトレーニングデータを合成しているが、既存のアプローチは大きなシードデータセットに依存するか、あるいは、生成された出力におけるタスクの関連性とデータの多様性の両方を保証するために苦労している。
マルチホッププロセスを用いて10個のシードデータポイントを拡大し,多様性とタスク関連性を確保した新しいデータ合成フレームワークであるAIDEを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:39:16Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Improving Sentence Embeddings with Automatic Generation of Training Data Using Few-shot Examples [13.946626388239443]
大規模な手書き注釈付きデータセットを使わずに文の埋め込みを改善することを目的としている。
数ショットの学習による自動データセット生成に注力し、数ショットの例を活用するための適切な方法を探る。
論文 参考訳(メタデータ) (2024-02-23T06:33:51Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。