論文の概要: AlpaGasus: Training A Better Alpaca with Fewer Data
- arxiv url: http://arxiv.org/abs/2307.08701v2
- Date: Sat, 30 Sep 2023 02:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:43:50.649299
- Title: AlpaGasus: Training A Better Alpaca with Fewer Data
- Title(参考訳): AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする
- Authors: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas
Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
- Abstract要約: 52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。
AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。
また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
- 参考スコア(独自算出の注目度): 93.6949102689243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models~(LLMs) strengthen instruction-following capability
through instruction-finetuning (IFT) on supervised instruction/response data.
However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly
contain many low-quality instances with incorrect or irrelevant responses,
which are misleading and detrimental to IFT. In this paper, we propose a simple
and effective data selection strategy that automatically identifies and filters
out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we
introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered
from the 52k Alpaca data. AlpaGasus significantly outperforms the original
Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human
evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM
(i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also
provides 5.7x faster training, reducing the training time for a 7B variant from
80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the
efficacy of our method across diverse datasets, base models, and LLM filters.
Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be
generally applied to instruction-tuning data, leading to faster training and
better instruction-following models. Our project page is available at:
\url{https://lichang-chen.github.io/AlpaGasus/}
- Abstract(参考訳): 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を強化する。
しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。
本稿では,強力なllm(例えばchatgpt)を用いて低品質データを自動的に識別しフィルタする,簡便で効果的なデータ選択戦略を提案する。
この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。
AlpaGasusは、複数のテストセットと制御されたヒトの評価において、GPT-4で評価されたオリジナルのAlpacaよりも大幅に優れている。
13bの変種は、テストタスクにおける教師のllm(つまり52kデータを生成するtext-davinci-003)の90\%$のパフォーマンスに匹敵する。
また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
さらに,本手法の有効性を,多種多様なデータセット,ベースモデル,LLMフィルタで実証した。
全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。
私たちのプロジェクトページは以下の通りである。
関連論文リスト
- Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。
CLEARは、どのトレーニングデータが低品質であるかを見積もる。
実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文 参考訳(メタデータ) (2024-03-19T14:44:45Z) - Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。
本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。
実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-19T15:21:58Z) - Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for
Instruction Fine-Tuning [41.82986713193004]
標準データセットから長いレスポンスで1000の命令を選択するという単純なベースラインが、洗練された手法を一貫して上回ることを示す。
このような長い命令の軽量化は、微調整LDMの能力をさらに向上させることができる。
以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。
論文 参考訳(メタデータ) (2024-02-07T13:32:11Z) - Aligner: Achieving Efficient Alignment through Weak-to-Strong Correction [10.883619887477613]
大規模言語モデル(LLM)の整合化への取り組みは、主にRLHF法(Reinforcement Learning from Human Feedback)を通じて行われる。
ここでは、アライメントとアンアライメントされた回答の間の補正残差を学習することにより、RLHFプロセス全体をバイパスする新しい効率的なアライメントパラダイムであるAlignerを紹介する。
論文 参考訳(メタデータ) (2024-02-04T09:24:51Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot
Question Answering [68.52980461474752]
オープンドメイン質問応答のための最小限のデータ拡張フレームワークMinPromptを提案する。
我々は、生テキストをグラフ構造に変換し、異なる事実文間の接続を構築する。
次に、グラフアルゴリズムを適用して、原文のほとんどの情報をカバーするのに必要な最小限の文の集合を識別する。
同定された文サブセットに基づいてQAペアを生成し、選択した文に基づいてモデルをトレーニングし、最終モデルを得る。
論文 参考訳(メタデータ) (2023-10-08T04:44:36Z) - Few-shot Adaptation Works with UnpredicTable Data [3.6432753393079427]
以前の研究は、多種多様なタスクに対するトレーニングが、新しいタスクに対する数発の学習を改善することを示している。
私たちはこれを極端に捉え、インターネットテーブルから413,299のタスクを自動的に抽出します。
私たちのデータセットの狭いサブセットは、時にはより多様なデータセットよりも優れています。
論文 参考訳(メタデータ) (2022-08-01T17:35:25Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。