論文の概要: OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
- arxiv url: http://arxiv.org/abs/2404.12195v1
- Date: Thu, 18 Apr 2024 13:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:11:44.542868
- Title: OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
- Title(参考訳): OpenBezoar: インストラクションデータの混合に基づいてトレーニングされた,小規模で費用効果の高い,オープンなモデル
- Authors: Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake,
- Abstract要約: 本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
我々はまず、Falcon-40Bモデルのオープンかつ非制限的命令微調整版を用いて、合成命令微調整データを生成する。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.
- Abstract(参考訳): 様々な下流作業のための微調整事前学習 LLM の指導は目覚ましい成功を収め、学者と実践者の双方の興味を引いた。
このような微調整LDMと人間の嗜好の整合性を確保するため、RLHFやDPOといった技術が出現した。
同時に、モデルに対するより小さなパラメータ数への関心が高まっている。
本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
このレシピでは、まず、LaMini-LM、WizardLM/Evol-Instruct(Databricks-dolly-15kをシードデータセットとする)、Orca(Flan Collectionをシードデータセットとする)の3つのスキームに基づいて、オープンかつ非制限的なFalcon-40Bモデルの微調整版を用いて、合成命令微調整データを生成し、GPT-4を人間のプロキシとしてフィルタリングする。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
得られたチェックポイントはさらにHH-RLHFデータセットのサブセットで微調整され、DPO損失を使用する前に分布シフトを最小限に抑え、最終チェックポイントを得る。
The LM Eval Harness task/metrics as the MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the final checkpoint, "OpenBezoar-HH-RLHF-DPO" は、3Bパラメータスケールでの多くのモデルよりも優れた性能を示し、Huggingface Open LLM Leaderboardのカテゴリの1つでトップモデルを上回っている。
OpenBezoar-HH-RLHF-SFT、OpenBezoar-HH-RLHF-DPO"チェックポイント、https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e2b9cc、https://bitbucket.org/paladinanalytics/workspace/projects/OPで生成されたデータセットとともに、OpenBezoar-HHH-RLHF-DPO"チェックポイントをリリースします。
関連論文リスト
- OpenELM: An Efficient Language Model Family with Open Training and Inference Framework [26.741510071520658]
私たちは最先端のオープン言語モデルであるOpenELMをリリースします。
パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
論文 参考訳(メタデータ) (2024-04-22T23:12:03Z) - Pre-training Small Base LMs with Fewer Tokens [63.81067268919042]
本研究では,既存の大規模基盤LMから始まる小ベース言語モデル(LM)を簡易に開発する手法の有効性について検討する。
簡単なレシピをInherituneと呼び、まず1Bトークンを使って1.5Bパラメータを持つ小さなベースLMを構築することを実証します。
GPT2-medium (355M) と GPT-2-large (770M) のいくつかの層を利用して訓練した小型LMは、スクラッチからトレーニングした場合に、より大きい層が失われることに効果的に対応できることを示した。
論文 参考訳(メタデータ) (2024-04-12T17:53:34Z) - Pandora's White-Box: Increased Training Data Leakage in Open LLMs [4.458307330781945]
我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z) - OpenChat: Advancing Open-source Language Models with Mixed-Quality Data [29.938434364765534]
混合品質データを用いたオープンソースの言語モデルを進化させる新しいフレームワーク、OpenChatを提案する。
提案するC(onditioned)-RLFTは,異なるデータソースを粗い報酬ラベルとみなし,クラス条件のポリシーを学習する。
C-RLFTで微調整したopenchat-13bは、13bのオープンソース言語モデルの中で最も高い平均性能を達成する。
論文 参考訳(メタデータ) (2023-09-20T11:54:40Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。