論文の概要: REInstruct: Building Instruction Data from Unlabeled Corpus
- arxiv url: http://arxiv.org/abs/2408.10663v1
- Date: Tue, 20 Aug 2024 09:05:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 14:24:42.813344
- Title: REInstruct: Building Instruction Data from Unlabeled Corpus
- Title(参考訳): Reinstruct: ラベルなしコーパスからのインストラクションデータの構築
- Authors: Shu Chen, Xinyan Guan, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun,
- Abstract要約: 本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。
Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
- 参考スコア(独自算出の注目度): 49.82314244648043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manually annotating instruction data for large language models is difficult, costly, and hard to scale. Meanwhile, current automatic annotation methods typically rely on distilling synthetic data from proprietary LLMs, which not only limits the upper bound of the quality of the instruction data but also raises potential copyright issues. In this paper, we propose REInstruct, a simple and scalable method to automatically build instruction data from an unlabeled corpus without heavy reliance on proprietary LLMs and human annotation. Specifically, REInstruct first selects a subset of unlabeled texts that potentially contain well-structured helpful and insightful content and then generates instructions for these texts. To generate accurate and relevant responses for effective and robust training, REInstruct further proposes a rewriting-based approach to improve the quality of the generated instruction data. By training Llama-7b on a combination of 3k seed data and 32k synthetic data from REInstruct, fine-tuned model achieves a 65.41\% win rate on AlpacaEval leaderboard against text-davinci-003, outperforming other open-source, non-distilled instruction data construction methods. The code is publicly available at \url{https://github.com/cs32963/REInstruct}.
- Abstract(参考訳): 大規模言語モデルの命令データを手動でアノテートするのは難しく、コストがかかり、スケールが難しい。
一方、現在の自動アノテーション法は、通常、プロプライエタリなLCMから合成データを蒸留することに依存しており、命令データの品質の上限を制限するだけでなく、潜在的な著作権問題を引き起こす。
本稿では,ラベルのないコーパスから命令データを自動的に作成する簡易でスケーラブルな手法であるREInstructを提案する。
具体的には、ReInstructはまず、構造化された有用な、洞察に富んだコンテンツを含む可能性のある、ラベルなしテキストのサブセットを選択し、それからこれらのテキストの命令を生成する。
効果的でロバストなトレーニングのための正確かつ関連する応答を生成するために、ReInstructはさらに、生成した命令データの品質を改善するための書き換えベースのアプローチを提案する。
3kシードデータとREInstructからの32k合成データの組み合わせでLlama-7bをトレーニングすることにより、微細調整されたモデルがAlpacaEvalのリーダーボード上で、text-davinci-003に対して65.41\%の勝利率を達成する。
コードは \url{https://github.com/cs32963/REInstruct} で公開されている。
関連論文リスト
- Unsupervised Text Representation Learning via Instruction-Tuning for Zero-Shot Dense Retrieval [19.422003299376]
命令チューニングによる教師なしテキスト表現学習手法を提案する。
関連する合成クエリの表現によってコーパス表現を拡張できることを実証する。
我々は,全指標の平均ゼロショット検索性能を著しく改善した。
論文 参考訳(メタデータ) (2024-09-24T23:03:13Z) - Non-instructional Fine-tuning: Enabling Instruction-Following Capabilities in Pre-trained Language Models without Instruction-Following Data [51.34222224728979]
本稿では,OpenWebText からのランダムテキストの前半を命令として,GPT-3.5-turbo あるいは GPT-4-turbo を用いて応答としてテキストを完成させる手法を提案する。
データが"非教育的"であるにも関わらず、このデータに基づいて微調整された事前学習されたLLMが、命令追従能力を得る可能性があることがわかった。
論文 参考訳(メタデータ) (2024-08-27T01:21:53Z) - Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models [54.14602121129874]
トレーニングデータを自動的に生成する最初のスケーラブルで信頼性の高いAutoIFを導入する。
AutoIFは命令追従データ品質の検証をコード検証に変換する。
論文 参考訳(メタデータ) (2024-06-19T13:29:53Z) - Efficient Pre-training for Localized Instruction Generation of Videos [32.13509517228516]
手続きビデオはステップバイステップの指示を伝えるのに役立ちます。
Process Transformer (ProcX) は、プロシージャビデオのエンドツーエンドのステップローカライズと命令生成のためのモデルである。
論文 参考訳(メタデータ) (2023-11-27T16:07:37Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation [92.2167864437497]
インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存のアノテートデータセットを活用することで、Dynosaurには、命令を生成するためのAPIコストを削減すること、命令チューニングのための高品質なデータを提供すること、新しいアノテートデータセットが利用可能になったときに、命令チューニングデータを生成することで、モデルの継続的な改善をサポートすること、など、いくつかのメリットがある。
論文 参考訳(メタデータ) (2023-05-23T17:56:26Z) - Self-Instruct: Aligning Language Models with Self-Generated Instructions [76.42871502364697]
Self-Instructは、事前訓練された言語モデルの命令フォロー機能を改善するためのフレームワークである。
私たちのパイプラインは、言語モデルから命令、入力、および出力のサンプルを生成し、その後、元のモデルを微調整するためにそれらを使用する前に、無効または類似のサンプルをフィルタします。
さらなる評価のために、新規タスクのエキスパートによる指示のセットをキュレートし、GPT3とセルフインストラクトのチューニングが既存の公開インストラクションデータセットを大きなマージンで向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。