論文の概要: OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
- arxiv url: http://arxiv.org/abs/2404.12195v1
- Date: Thu, 18 Apr 2024 13:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:11:44.542868
- Title: OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data
- Title(参考訳): OpenBezoar: インストラクションデータの混合に基づいてトレーニングされた,小規模で費用効果の高い,オープンなモデル
- Authors: Chandeepa Dissanayake, Lahiru Lowe, Sachith Gunasekara, Yasiru Ratnayake,
- Abstract要約: 本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
我々はまず、Falcon-40Bモデルのオープンかつ非制限的命令微調整版を用いて、合成命令微調整データを生成する。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Instruction fine-tuning pretrained LLMs for diverse downstream tasks has demonstrated remarkable success and has captured the interest of both academics and practitioners. To ensure such fine-tuned LLMs align with human preferences, techniques such as RLHF and DPO have emerged. At the same time, there is increasing interest in smaller parameter counts for models. In this work, using OpenLLaMA 3Bv2 as a base model, we describe the recipe used to fine-tune the OpenBezoar family of models. In this recipe: We first generate synthetic instruction fine-tuning data using an open and commercially non-restrictive instruction fine-tuned variant of the Falcon-40B model under three schemes based on: LaMini-LM, WizardLM/Evol-Instruct (with databricks-dolly-15k as a seed dataset) and Orca (with the Flan Collection as a seed dataset), then filter these generations using GPT-4 as a human proxy. We then perform cost-effective QLoRA-based supervised fine-tuning sequentially with each scheme. The resulting checkpoint is further fine-tuned with a subset of the HH-RLHF dataset to minimize distribution shift prior to using the DPO loss to obtain the final checkpoint. Evaluation is done with the LM Eval Harness tasks/metrics as well as on MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the finding that the final checkpoint, "OpenBezoar-HH-RLHF-DPO", demonstrates superior performance over many models at the 3B parameter scale, even outperforming the top model in one of the categories on the Huggingface Open LLM Leaderboard. We release "OpenBezoar-SFT", "OpenBezoar-HH-RLHF-SFT", "OpenBezoar-HH-RLHF-DPO" checkpoints, alongside our generated datasets on HuggingFace at https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e9e2b9cc and our codebase at https://bitbucket.org/paladinanalytics/workspace/projects/OP.
- Abstract(参考訳): 様々な下流作業のための微調整事前学習 LLM の指導は目覚ましい成功を収め、学者と実践者の双方の興味を引いた。
このような微調整LDMと人間の嗜好の整合性を確保するため、RLHFやDPOといった技術が出現した。
同時に、モデルに対するより小さなパラメータ数への関心が高まっている。
本研究では,OpenLLaMA 3Bv2をベースモデルとして,OpenBezoarファミリを微調整するレシピについて述べる。
このレシピでは、まず、LaMini-LM、WizardLM/Evol-Instruct(Databricks-dolly-15kをシードデータセットとする)、Orca(Flan Collectionをシードデータセットとする)の3つのスキームに基づいて、オープンかつ非制限的なFalcon-40Bモデルの微調整版を用いて、合成命令微調整データを生成し、GPT-4を人間のプロキシとしてフィルタリングする。
次に、コスト効率のよいQLoRAに基づく教師あり微調整を各スキームで逐次行う。
得られたチェックポイントはさらにHH-RLHFデータセットのサブセットで微調整され、DPO損失を使用する前に分布シフトを最小限に抑え、最終チェックポイントを得る。
The LM Eval Harness task/metrics as the MT-Bench using the "LLM-as-a-judge" framework with Claude 2.1, with the final checkpoint, "OpenBezoar-HH-RLHF-DPO" は、3Bパラメータスケールでの多くのモデルよりも優れた性能を示し、Huggingface Open LLM Leaderboardのカテゴリの1つでトップモデルを上回っている。
OpenBezoar-HH-RLHF-SFT、OpenBezoar-HH-RLHF-DPO"チェックポイント、https://huggingface.co/collections/SurgeGlobal/open-bezoar-6620a24923e12127e2b9cc、https://bitbucket.org/paladinanalytics/workspace/projects/OPで生成されたデータセットとともに、OpenBezoar-HHH-RLHF-DPO"チェックポイントをリリースします。
関連論文リスト
- How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。
我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。
大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文 参考訳(メタデータ) (2024-10-18T21:38:21Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Labeling supervised fine-tuning data with the scaling law [0.0]
本稿では,スケーリング法則による多段階手動アノテーションを導入し,高品質なSupervised Fine-Tuningデータ取得手法を提案する。
我々は58kのチャットデータを前処理し、2.3kの質問を手動で注釈付けした。
0.5Bから32BパラメータのQwenモデルの微調整を行い,F1スコアの29.07を最適化した。
論文 参考訳(メタデータ) (2024-05-05T05:43:20Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Pandora's White-Box: Precise Training Data Detection and Extraction in Large Language Models [4.081098869497239]
我々は,大規模言語モデル(LLM)に対する最先端のプライバシ攻撃を開発する。
事前訓練されたLLMに対する新たなメンバーシップ推論攻撃(MIA)は、ベースライン攻撃の数百倍の精度で実行される。
微調整では, ベースモデルと微調整モデルとの損失率に基づく単純な攻撃により, ほぼ完全なMIA性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。