論文の概要: Automatic Instruction Optimization for Open-source LLM Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2311.13246v1
- Date: Wed, 22 Nov 2023 09:04:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:44:23.758001
- Title: Automatic Instruction Optimization for Open-source LLM Instruction
Tuning
- Title(参考訳): オープンソースのLLM命令チューニングのための自動命令最適化
- Authors: Yilun Liu, Shimin Tao, Xiaofeng Zhao, Ming Zhu, Wenbing Ma, Junhao
Zhu, Chang Su, Yutai Hou, Miao Zhang, Min Zhang, Hongxia Ma, Li Zhang, Hao
Yang, Yanfei Jiang
- Abstract要約: 提案するCoachLMは,データセット内のサンプルを自動的に修正することで,命令データセットの品質を高める新しい手法である。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
結果から,CoachLMは命令調整LDMの指示追従能力を平均29.9%改善することがわかった。
- 参考スコア(独自算出の注目度): 33.27796882562961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is crucial for enabling Language Learning Models (LLMs) in
responding to human instructions. The quality of instruction pairs used for
tuning greatly affects the performance of LLMs. However, the manual creation of
high-quality instruction datasets is costly, leading to the adoption of
automatic generation of instruction pairs by LLMs as a popular alternative in
the training of open-source LLMs. To ensure the high quality of LLM-generated
instruction datasets, several approaches have been proposed. Nevertheless,
existing methods either compromise dataset integrity by filtering a large
proportion of samples, or are unsuitable for industrial applications. In this
paper, instead of discarding low-quality samples, we propose CoachLM, a novel
approach to enhance the quality of instruction datasets through automatic
revisions on samples in the dataset. CoachLM is trained from the samples
revised by human experts and significantly increases the proportion of
high-quality samples in the dataset from 17.7% to 78.9%. The effectiveness of
CoachLM is further assessed on various real-world instruction test sets. The
results show that CoachLM improves the instruction-following capabilities of
the instruction-tuned LLM by an average of 29.9%, which even surpasses larger
LLMs with nearly twice the number of parameters. Furthermore, CoachLM is
successfully deployed in a data management system for LLMs at Huawei, resulting
in an efficiency improvement of up to 20% in the cleaning of 40k real-world
instruction pairs. We release the training data and code of CoachLM
(https://github.com/lunyiliu/CoachLM).
- Abstract(参考訳): インストラクションチューニングは、人間の指示に応答する言語学習モデル(LLM)の実現に不可欠である。
チューニングに使用する命令ペアの品質は、LLMの性能に大きく影響する。
しかし、高品質な命令データセットを手作業で作成することはコストがかかるため、LLMによる命令ペアの自動生成が、オープンソースのLLMのトレーニングにおいて一般的な代替手段となる。
LLM生成した命令データセットの高品質性を確保するため、いくつかのアプローチが提案されている。
それにもかかわらず、既存の手法は大量のサンプルをフィルタリングすることでデータセットの整合性を損なうか、工業用途に適さない。
本稿では,低品質なサンプルを捨てる代わりに,データセットのサンプルの自動修正によって命令データセットの品質を高める新しい手法であるCoachLMを提案する。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
coachLMの有効性は、様々な実世界の命令セットでさらに評価される。
その結果、CoachLMは、平均29.9%の命令調整LDMの命令追従能力を向上し、パラメータの約2倍のLLMを超える結果となった。
さらに、CoachLMはHuaweiのLLMのデータ管理システムにデプロイされ、40kの実世界の命令ペアのクリーニングにおいて最大20%の効率向上を実現している。
CoachLM(https://github.com/lunyiliu/CoachLM)のトレーニングデータとコードをリリースする。
関連論文リスト
- LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
LLM2LLMは、教師のLLMを使用して、特定のタスクの微調整に使用できる追加データを追加することで、小さなシードデータセットを強化する。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - Selective Reflection-Tuning: Student-Selected Data Recycling for LLM
Instruction-Tuning [42.10827309631878]
本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善するパラダイムであるSelective Reflection-Tuningを紹介する。
この教師と学生のコラボレーションは、高品質で学生互換の授業-レスポンスペアを生産する。
本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。
論文 参考訳(メタデータ) (2024-02-15T17:06:21Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - MoDS: Model-oriented Data Selection for Instruction Tuning [35.60124047070829]
本稿では,モデル指向データ選択 (MoDS) 手法を提案する。
実験結果から,提案手法で選択した4000組の命令ペアを微調整したモデルの方が,完全なオリジナルデータセットで微調整したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-27T09:33:13Z) - Auto-Instruct: Automatic Instruction Generation and Ranking for
Black-Box Language Models [91.02730155418699]
大規模言語モデル(LLM)は、自然言語命令に従うことで幅広いタスクを実行できる。
LLMに提供される命令の質を自動改善する新しい手法であるAuto-Instructを導入する。
118のアウトオブドメインタスクの実験では、Auto-Instructは人間による命令と既存のLCM生成命令のベースラインを超越している。
論文 参考訳(メタデータ) (2023-10-19T19:52:55Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。