論文の概要: Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning
- arxiv url: http://arxiv.org/abs/2310.11716v1
- Date: Wed, 18 Oct 2023 05:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 17:49:07.833953
- Title: Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning
- Title(参考訳): リフレクションチューニング: LLMインストラクションチューニングを改善するデータリサイクル
- Authors: Ming Li, Lichang Chen, Jiuhai Chen, Shwai He, Heng Huang, Jiuxiang Gu,
Tianyi Zhou
- Abstract要約: トレーニングセットの低品質データは、通常、チューニングのチューニングに有害である。
我々は「反射チューニング」と呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
- 参考スコア(独自算出の注目度): 79.32236399694077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have expanded the
horizons of natural language understanding and generation. Notably, the output
control and alignment with the input of LLMs can be refined through instruction
tuning. However, as highlighted in several studies, low-quality data in the
training set are usually detrimental to instruction tuning, resulting in
inconsistent or even misleading LLM outputs. We propose a novel method, termed
"reflection-tuning," which addresses the problem by self-improvement and
judging capabilities of LLMs. This approach utilizes an oracle LLM to recycle
the original training data by introspecting and enhancing the quality of
instructions and responses in the data. Extensive experiments on widely used
evaluation benchmarks show that LLMs trained with our recycled data outperform
those trained with existing datasets in various benchmarks.
- Abstract(参考訳): 大規模言語モデル(llm)の最近の進歩は、自然言語理解と生成の地平を広げた。
特に、LLMの入力に対する出力制御とアライメントは、命令チューニングによって洗練することができる。
しかしながら、いくつかの研究で強調されているように、トレーニングセットの低品質データは通常、命令チューニングに不利であり、結果としてllm出力の一貫性や誤解を招く。
本稿では,LLMの自己改善と判断能力によって問題に対処する,リフレクションチューニングと呼ばれる新しい手法を提案する。
このアプローチでは、オラクルLSMを使用して、データ内の命令や応答の質を検査し、向上することで、元のトレーニングデータをリサイクルする。
広く使われている評価ベンチマークに関する広範囲な実験は、再生データで訓練されたllmが、様々なベンチマークで既存のデータセットで訓練されたものよりも優れていることを示している。
関連論文リスト
- Selective Reflection-Tuning: Student-Selected Data Recycling for LLM
Instruction-Tuning [42.10827309631878]
本稿では,教師のLLMのリフレクションとイントロスペクションを相乗化して既存のデータ品質を改善するパラダイムであるSelective Reflection-Tuningを紹介する。
この教師と学生のコラボレーションは、高品質で学生互換の授業-レスポンスペアを生産する。
本手法をAlpaca と WizardLM のデータに適用し,より強力で最上位の 7B と 13B の LLM を実現する。
論文 参考訳(メタデータ) (2024-02-15T17:06:21Z) - Automatic Instruction Optimization for Open-source LLM Instruction
Tuning [33.27796882562961]
提案するCoachLMは,データセット内のサンプルを自動的に修正することで,命令データセットの品質を高める新しい手法である。
CoachLMは、人間の専門家によって改訂されたサンプルから訓練され、データセットの高品質なサンプルの割合が17.7%から78.9%に大幅に増加した。
結果から,CoachLMは命令調整LDMの指示追従能力を平均29.9%改善することがわかった。
論文 参考訳(メタデータ) (2023-11-22T09:04:57Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data
Selection for Instruction Tuning [54.222609226692015]
我々は大規模言語モデルのための自己誘導手法を導入し、大規模なオープンソースデータセットからサクラサンプルを自律的に識別し、選択する。
私たちの重要なイノベーションであるIFD(Instruction-Following Difficulty)メトリックは、モデルが期待する応答と自動生成技術との間の相違を識別するための重要なツールとして現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential
Behavior Comprehension in Recommendation [44.89764672511655]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - On Learning to Summarize with Large Language Models as References [105.62615205746106]
本研究では,大規模言語モデル(LLM)を,データセット上のゴールドスタンダード・オラクルの参照あるいは参照とみなす新たな学習環境について検討する。
CNN/DailyMailおよびXSumデータセットの実験では、より小さな要約モデルがLLMと同等のパフォーマンスを達成できることが示されている。
しかし,人間による評価では,小型モデルではLLMレベルに到達できないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。