論文の概要: AlpaGasus: Training A Better Alpaca with Fewer Data
- arxiv url: http://arxiv.org/abs/2307.08701v1
- Date: Mon, 17 Jul 2023 17:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 11:49:12.753946
- Title: AlpaGasus: Training A Better Alpaca with Fewer Data
- Title(参考訳): AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする
- Authors: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas
Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
- Abstract要約: 52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回っている。
また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
- 参考スコア(独自算出の注目度): 106.88779621328064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) obtain instruction-following capability through
instruction-finetuning (IFT) on supervised instruction/response data. However,
widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many
low-quality instances with incorrect or irrelevant responses, which are
misleading and detrimental to IFT. In this paper, we propose a simple and
effective data selection strategy that automatically identifies and removes
low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce
AlpaGasus, which is finetuned on only 9k high-quality data filtered from the
52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as
evaluated by GPT-4 on multiple test sets and its 13B variant matches $>90\%$
performance of its teacher LLM (i.e., Text-Davinci-003) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes \footnote{We apply IFT for the same
number of epochs as Alpaca(7B) but on fewer data, using 4$\times$NVIDIA A100
(80GB) GPUs and following the original Alpaca setting and hyperparameters.}.
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
\url{https://lichang-chen.github.io/AlpaGasus/}.
- Abstract(参考訳): 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を得る。
しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。
本稿では,強力なLCM(ChatGPT)を用いた低品質データの自動識別と削除を行う,シンプルで効果的なデータ選択戦略を提案する。
この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。
AlpaGasus は、複数のテストセットで GPT-4 で評価されたオリジナルの Alpaca を著しく上回り、その 13B 変種は、テストタスクにおいてその教師 LLM (すなわち Text-Davinci-003) のパフォーマンスに 90 %$ で一致する。
さらに5.7倍高速なトレーニングも提供し、7Bの変種を80分(Alpacaの場合)から14分(Alpaca(7Bと同じ数のエポックに対してIFTを適用するが、4$\times$NVIDIA A100 (80GB) GPUを使用し、オリジナルのAlpaca設定とハイパーパラメータに従ってデータが少ない。
}.
全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。
私たちのプロジェクトページは以下の通りである。
関連論文リスト
- Reformatted Alignment [28.994063377819135]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-19T15:21:58Z) - Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for
Instruction Fine-Tuning [41.82986713193004]
標準データセットから長いレスポンスで1000の命令を選択するという単純なベースラインが、洗練された手法を一貫して上回ることを示す。
このような長い命令の軽量化は、微調整LDMの能力をさらに向上させることができる。
以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。
論文 参考訳(メタデータ) (2024-02-07T13:32:11Z) - Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction [10.883619887477613]
大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Few-shot Adaptation Works with UnpredicTable Data [3.6432753393079427]
以前の研究は、多種多様なタスクに対するトレーニングが、新しいタスクに対する数発の学習を改善することを示している。
私たちはこれを極端に捉え、インターネットテーブルから413,299のタスクを自動的に抽出します。
私たちのデータセットの狭いサブセットは、時にはより多様なデータセットよりも優れています。
論文 参考訳(メタデータ) (2022-08-01T17:35:25Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Transfer Learning or Self-supervised Learning? A Tale of Two Pretraining
Paradigms [36.04356511882304]
自己教師付き学習(SSL)は、幅広いアプリケーションで有望な結果を示している。
データとタスクの性質について明確な理解が得られていないため、一方のアプローチがもう一方よりも優れている。
論文 参考訳(メタデータ) (2020-06-19T05:21:00Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。