論文の概要: Selective Reflection-Tuning: Student-Selected Data Recycling for LLM
Instruction-Tuning
- arxiv url: http://arxiv.org/abs/2402.10110v1
- Date: Thu, 15 Feb 2024 17:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:32:38.360527
- Title: Selective Reflection-Tuning: Student-Selected Data Recycling for LLM
Instruction-Tuning
- Title(参考訳): 学生が選択した LLM 指導用データリサイクル
- Authors: Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Jiuxiang Gu, Tianyi Zhou
- Abstract要約: 本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善するパラダイムであるSelective Reflection-Tuningを紹介する。
この教師と学生のコラボレーションは、高品質で学生互換の授業-レスポンスペアを生産する。
本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。
- 参考スコア(独自算出の注目度): 42.10827309631878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning is critical to large language models (LLMs) for achieving
better instruction following and task adaptation capabilities but its success
heavily relies on the training data quality. Many recent methods focus on
improving the data quality but often overlook the compatibility of the data
with the student model being finetuned. This paper introduces Selective
Reflection-Tuning, a novel paradigm that synergizes a teacher LLM's reflection
and introspection for improving existing data quality with the data selection
capability of the student LLM, to automatically refine existing
instruction-tuning data. This teacher-student collaboration produces
high-quality and student-compatible instruction-response pairs, resulting in
sample-efficient instruction tuning and LLMs of superior performance. Selective
Reflection-Tuning is a data augmentation and synthesis that generally improves
LLM finetuning and self-improvement without collecting brand-new data. We apply
our method to Alpaca and WizardLM data and achieve much stronger and top-tier
7B and 13B LLMs. Our codes, models, and data will be released at
https://github.com/tianyi-lab/Reflection_Tuning.
- Abstract(参考訳): インストラクションチューニングは、より優れたインストラクション追従とタスク適応能力を達成するために大きな言語モデル(LLM)にとって重要であるが、その成功はトレーニングデータの品質に大きく依存している。
最近の多くの手法はデータ品質の改善に重点を置いているが、学生モデルとの互換性を見落としていることが多い。
本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を学生のLLMのデータ選択能力で向上させる新しいパラダイムであるSelective Reflection-Tuningを紹介する。
この教師と教師のコラボレーションは、高品質で学生と互換性のある命令-応答ペアを生み出し、結果としてサンプル効率の良い命令チューニングと優れたパフォーマンスのllmを生み出します。
Selective Reflection-Tuningは、新しいデータを集めることなく、LLMの微調整と自己改善を改善するデータ拡張と合成である。
本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。
私たちのコード、モデル、データはhttps://github.com/tianyi-lab/Reflection_Tuning.comでリリースされます。
関連論文リスト
- Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z) - CoachLM: Automatic Instruction Revisions Improve the Data Quality in LLM Instruction Tuning [32.54921739100195]
提案するCoachLMは,データセット内のサンプルを自動的に修正することで,命令データセットの品質を高める新しい手法である。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
結果から,CoachLMは命令調整LDMの指示追従能力を平均29.9%改善することがわかった。
論文 参考訳(メタデータ) (2023-11-22T09:04:57Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning [79.32236399694077]
トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
論文 参考訳(メタデータ) (2023-10-18T05:13:47Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。