論文の概要: Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai
- arxiv url: http://arxiv.org/abs/2411.15484v1
- Date: Sat, 23 Nov 2024 07:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:50.433684
- Title: Seed-Free Synthetic Data Generation Framework for Instruction-Tuning LLMs: A Case Study in Thai
- Title(参考訳): インストラクションチューニング LLM のためのシードフリー合成データ生成フレームワーク:タイの事例研究
- Authors: Parinthapat Pengpun, Can Udomcharoenchaikit, Weerayut Buaphet, Peerat Limkonchotiwat,
- Abstract要約: タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
- 参考スコア(独自算出の注目度): 5.670682861458055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a synthetic data approach for instruction-tuning large language models (LLMs) for low-resource languages in a data-efficient manner, specifically focusing on Thai. We identify three key properties that contribute to the effectiveness of instruction-tuning datasets: fluency, diversity, and cultural context. We propose a seed-data-free framework for generating synthetic instruction-tuning data that incorporates these essential properties. Our framework employs an LLM to generate diverse topics, retrieve relevant contexts from Wikipedia, and create instructions for various tasks, such as question answering, summarization, and conversation. The experimental results show that our best-performing synthetic dataset, which incorporates all three key properties, achieves competitive performance using only 5,000 instructions when compared to state-of-the-art Thai LLMs trained on hundreds of thousands of instructions. Our code and dataset are publicly available at https://github.com/parinzee/seed-free-synthetic-instruct.
- Abstract(参考訳): タイ語を中心に,低リソース言語のための命令調整型大規模言語モデル(LLM)をデータ効率よく合成する手法を提案する。
教育訓練データセットの有効性に寄与する3つの重要な特性を同定する。
そこで本研究では,これらの基本特性を組み込んだ合成命令チューニングデータを生成するためのシードデータフリーフレームワークを提案する。
我々のフレームワークはLLMを用いて多様なトピックを生成し、ウィキペディアから関連するコンテキストを検索し、質問応答、要約、会話などの様々なタスクの指示を作成する。
実験結果から,3つの重要な特性をすべて組み込んだ最適な合成データセットは,数十万の命令で訓練されたタイのLLMと比較して,5000の命令のみを用いて競合性能を達成していることがわかった。
私たちのコードとデータセットはhttps://github.com/parinzee/seed-free-synthetic-instructで公開されています。
関連論文リスト
- Artificial Conversations, Real Results: Fostering Language Detection with Synthetic Data [0.2687400480679652]
本研究では,合成データを生成するパイプラインと,大規模言語モデルが生成する合成データの有効性に影響を与える要因を総合的に検討する。
我々の結果は、ほとんどのケースと異なるメトリクスにおいて、合成データに基づいて訓練された微調整されたモデルが、実データと合成テストデータセットの両方において、他のモデルよりも一貫して優れていたことを示している。
論文 参考訳(メタデータ) (2025-03-31T13:22:34Z) - Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models [22.16558378953053]
我々は、人間による命令から得られた最先端の命令チューニングデータセットを構築した。
LLMは私たちのデータセットで微調整され、既存のデータセットで微調整されています。
分析によれば、新しい言語での命令チューニングにより、LLMは命令に従うことができるが、チューニングされたモデルは、その言語における文化固有の知識の欠如を顕著に示している。
論文 参考訳(メタデータ) (2025-03-31T04:28:38Z) - ARISE: Iterative Rule Induction and Synthetic Data Generation for Text Classification [27.023332376571677]
ARISEは、規則を反復的に導き、テキスト分類のための合成データを生成するフレームワークである。
我々は、構文的n-グラムの帰納的一般化により規則を誘導し、補完的な監督源を捉えることができる。
論文 参考訳(メタデータ) (2025-02-09T14:39:01Z) - AIDE: Task-Specific Fine Tuning with Attribute Guided Multi-Hop Data Expansion [15.916595953695603]
特定のタスクのための微調整された大型言語モデル(LLM)には、タスクに関連する高品質で多様なトレーニングデータが必要である。
近年の研究では、LLMを利用してトレーニングデータを合成しているが、既存のアプローチは大きなシードデータセットに依存するか、あるいは、生成された出力におけるタスクの関連性とデータの多様性の両方を保証するために苦労している。
マルチホッププロセスを用いて10個のシードデータポイントを拡大し,多様性とタスク関連性を確保した新しいデータ合成フレームワークであるAIDEを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:39:16Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - Improving Sentence Embeddings with Automatic Generation of Training Data Using Few-shot Examples [13.946626388239443]
大規模な手書き注釈付きデータセットを使わずに文の埋め込みを改善することを目的としている。
数ショットの学習による自動データセット生成に注力し、数ショットの例を活用するための適切な方法を探る。
論文 参考訳(メタデータ) (2024-02-23T06:33:51Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - From Base to Conversational: Japanese Instruction Dataset and Tuning
Large Language Models [6.520584613661788]
既存のデータセットを拡張・フィルタリングすることで,日本語の命令データセットを構築する。
日本語と英語の両方の既存モデルでローランド適応(LoRA)チューニングを行う。
論文 参考訳(メタデータ) (2023-09-07T00:14:37Z) - ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for
Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。
ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。
具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文 参考訳(メタデータ) (2023-03-09T06:24:50Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。