論文の概要: SeDi-Instruct: Enhancing Alignment of Language Models through Self-Directed Instruction Generation
- arxiv url: http://arxiv.org/abs/2502.04774v1
- Date: Fri, 07 Feb 2025 09:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:57.562323
- Title: SeDi-Instruct: Enhancing Alignment of Language Models through Self-Directed Instruction Generation
- Title(参考訳): セディインストラクション:自己指示型インストラクション生成による言語モデルのアライメント向上
- Authors: Jungwoo Kim, Minsang Kim, Sungjin Lee,
- Abstract要約: 本稿では,多様性に基づくフィルタリングと反復的フィードバックタスク生成を利用した新しいデータ生成フレームワークSeDi-Instruction(SeDi-Instruct)を提案する。
SeDi-Instructは、従来の方法と比較してAIモデルの精度を5.2%向上し、データ生成コストを36%削減する。
- 参考スコア(独自算出の注目度): 7.066883955432192
- License:
- Abstract: The rapid evolution of Large Language Models (LLMs) has enabled the industry to develop various AI-based services. Instruction tuning is considered essential in adapting foundation models for target domains to provide high-quality services to customers. A key challenge in instruction tuning is obtaining high-quality instruction data. Self-Instruct, which automatically generates instruction data using ChatGPT APIs, alleviates the data scarcity problem. To improve the quality of instruction data, Self-Instruct discards many of the instructions generated from ChatGPT, even though it is inefficient in terms of cost owing to many useless API calls. To generate high-quality instruction data at a low cost, we propose a novel data generation framework, Self-Direct Instruction generation (SeDi-Instruct), which employs diversity-based filtering and iterative feedback task generation. Diversity-based filtering maintains model accuracy without excessively discarding low-quality generated instructions by enhancing the diversity of instructions in a batch. This reduces the cost of synthesizing instruction data. The iterative feedback task generation integrates instruction generation and training tasks and utilizes information obtained during the training to create high-quality instruction sets. Our results show that SeDi-Instruct enhances the accuracy of AI models by 5.2%, compared with traditional methods, while reducing data generation costs by 36%.
- Abstract(参考訳): LLM(Large Language Models)の急速な進化により、業界は様々なAIベースのサービスを開発できるようになった。
インストラクションチューニングは、顧客に対して高品質なサービスを提供するために、ターゲットドメインの基盤モデルを適用する上で不可欠であると考えられている。
命令チューニングにおける重要な課題は、高品質な命令データを取得することである。
ChatGPT APIを使って自動的に命令データを生成するSelf-Instructは、データ不足の問題を軽減する。
命令データの品質を向上させるために、Self-InstructはChatGPTから生成された命令の多くを破棄する。
低コストで高品質な命令データを生成するために,多様性に基づくフィルタリングと反復的フィードバックタスク生成を利用した新しいデータ生成フレームワークSeDi-Instruct(SeDi-Instruct)を提案する。
多様性に基づくフィルタリングは、バッチ内の命令の多様性を高めることにより、低品質な生成された命令を過度に破棄することなく、モデルの精度を維持する。
これにより、命令データを合成するコストが削減される。
反復フィードバックタスク生成は、命令生成とトレーニングタスクを統合し、トレーニング中に得られた情報を利用して高品質な命令セットを作成する。
その結果,SeDi-Instructは従来の手法に比べてAIモデルの精度を5.2%向上し,データ生成コストを36%削減した。
関連論文リスト
- Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文 参考訳(メタデータ) (2024-08-20T09:05:03Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。
Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。
評価の結果,モザイクITの性能と訓練効率が向上した。
論文 参考訳(メタデータ) (2024-05-22T04:08:20Z) - Harnessing the Power of David against Goliath: Exploring Instruction
Data Generation without Using Closed-Source Models [32.41573520305861]
クローズドソースモデルに依存しない高品質な命令データを生成するための代替手法を検討する。
2つのベンチマークとGPT-4モデルによる評価結果から,生成した命令データの有効性が示された。
論文 参考訳(メタデータ) (2023-08-24T11:07:47Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。