Fugu-MT 論文翻訳(概要): AlpaGasus: Training A Better Alpaca with Fewer Data

論文の概要: AlpaGasus: Training A Better Alpaca with Fewer Data

arxiv url: http://arxiv.org/abs/2307.08701v4
Date: Sat, 4 Nov 2023 21:39:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 21:37:06.128268
Title: AlpaGasus: Training A Better Alpaca with Fewer Data
Title（参考訳）: AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする
Authors: Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin
Abstract要約: 52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを紹介する。 AlpaGasusは、複数のテストセットと制御された人間の評価において、オリジナルのAlpacaを著しく上回っている。また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
参考スコア（独自算出の注目度）: 93.6949102689243
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models~(LLMs) strengthen instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and filters out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the efficacy of our method across diverse datasets, base models, and LLM filters. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: \url{https://lichang-chen.github.io/AlpaGasus/}
Abstract（参考訳）: 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を強化する。しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。本稿では,強力なllm(例えばchatgpt)を用いて低品質データを自動的に識別しフィルタする,簡便で効果的なデータ選択戦略を提案する。この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。 AlpaGasusは、複数のテストセットと制御されたヒトの評価において、GPT-4で評価されたオリジナルのAlpacaよりも大幅に優れている。 13bの変種は、テストタスクにおける教師のllm(つまり52kデータを生成するtext-davinci-003)の90\%$のパフォーマンスに匹敵する。また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。さらに,本手法の有効性を,多種多様なデータセット,ベースモデル,LLMフィルタで実証した。全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。私たちのプロジェクトページは以下の通りである。

関連論文リスト

Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs [56.74916151916208]
大型言語モデル(LLM)は、様々なドメインでAIアシスタントとして機能する際、幻覚(不信または非感覚的な情報)を示す。学習中に必然的にノイズを発生させる応答レベルの嗜好学習を行う従来の事実アライメント手法。本稿では,Mask-DPO (Direct Preference Optimization, DPO) に基づくファクトリティアライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-04T18:20:24Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Improving Pretraining Data Using Perplexity Correlations [56.41097718862742]
我々は,LLM学習を必要とせず,高品質な事前学習データを選択するフレームワークを提案する。我々は,パープレキシティ-ベンチマーク相関の推定を中心に,データ選択のための新しい統計フレームワークを構築した。提案手法は,DataComp-LMで見つかった最高のデータセレクタをマッチングしながら,各ベンチマークでDSIRより優れている。
論文参考訳（メタデータ） (2024-09-09T17:23:29Z)
Instruct-SkillMix: A Powerful Pipeline for LLM Instruction Tuning [40.61149906522525]
Instruct-SkillMixは、命令追従のための多種多様な高品質なSFTデータを作成するための自動化アプローチである。わずか4Kの例で、LLaMA-3-8B-BaseはAlpacaEval 2.0で42.76%の勝利率を達成した。
論文参考訳（メタデータ） (2024-08-27T04:31:58Z)
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文参考訳（メタデータ） (2024-06-12T17:52:30Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文参考訳（メタデータ） (2024-04-26T18:01:25Z)
Automated Data Curation for Robust Language Model Fine-Tuning [13.8454385440986]
本稿では,データセットのチューニングを行うための自動データキュレーションパイプライン CLEAR を提案する。 CLEARは、どのトレーニングデータが低品質であるかを見積もる。実験の結果、CLEARは多くのデータセットやモデルにまたがって微調整されたモデルの性能を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2024-03-19T14:44:45Z)
Reformatted Alignment [27.79684742862816]
データ品質を改善するための現在の手法は、労働集約的であるか、幻覚によって引き起こされる事実上の誤りを招きやすいかのいずれかである。本稿では,ReAlignという簡易かつ効果的な手法を導入し,命令データの応答を予め確立された基準と照合された証拠に適合する形式に再構成する。実験的に、ReAlignはLLMの一般的なアライメント能力、数学的推論、事実性、可読性を大幅に向上させる。
論文参考訳（メタデータ） (2024-02-19T15:21:58Z)
Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for Instruction Fine-Tuning [38.29072578390376]
より長い応答に対する微調整は、命令微調整の作業においてデフォルトのベースラインであるべきであることを示す。いくつかのLLM(Llama-2-7B,Llama-2-13B,Mistral-7B-v0.1)とデータセット(Alpaca-52k,Evol-Instruct-70k)に対してこれを実証する。
論文参考訳（メタデータ） (2024-02-07T13:32:11Z)
Aligner: Efficient Alignment by Learning to Correct [10.056049435141645]
モデルに依存しないプラグアンドプレイモジュールであるAlignerを導入し、好ましくない回答と好ましくない回答の補正残差を学習する。トレーニングはワンオフで、さまざまなオープンソースおよびAPIベースのモデルに適用できるため、迅速なイテレーションに適している。実験では、11の異なる言語モデルに同じAlignerモデルをデプロイすることで、パフォーマンスの向上を実証した。
論文参考訳（メタデータ） (2024-02-04T09:24:51Z)
Efficient Grammatical Error Correction Via Multi-Task Training and Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文参考訳（メタデータ） (2023-11-20T14:50:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。