論文の概要: Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing
Conversational LLMs with Direct RLHF
- arxiv url: http://arxiv.org/abs/2403.02513v1
- Date: Mon, 4 Mar 2024 22:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:48:30.592417
- Title: Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing
Conversational LLMs with Direct RLHF
- Title(参考訳): バランス強化・無害・一般能力:直接RLHFによる会話型LLMの強化
- Authors: Chen Zheng, Ke Sun, Hang Wu, Chenguang Xi, Xun Zhou
- Abstract要約: 我々は、監視ファインチューニング(SFT)を完全に回避し、ヒューマンフィードバック(RLHF)からのハームレス強化学習を直接実装した革新的なアプローチを提案する。
提案手法は, 基本モデルの汎用能力を保ちつつ, その会話能力を大幅に向上させるとともに, 有害な出力の発生を著しく低減する。
11の一般的なタスクに対する検証は、Mistral-Plusが同様の規模のオープンソースベースモデルとそれに対応するインストラクションバージョンより優れていることを示す。
- 参考スコア(独自算出の注目度): 19.115536480244305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent advancements in Conversational Large Language Models (LLMs), a
concerning trend has emerged, showing that many new base LLMs experience a
knowledge reduction in their foundational capabilities following Supervised
Fine-Tuning (SFT). This process often leads to issues such as forgetting or a
decrease in the base model's abilities. Moreover, fine-tuned models struggle to
align with user preferences, inadvertently increasing the generation of toxic
outputs when specifically prompted. To overcome these challenges, we adopted an
innovative approach by completely bypassing SFT and directly implementing
Harmless Reinforcement Learning from Human Feedback (RLHF). Our method not only
preserves the base model's general capabilities but also significantly enhances
its conversational abilities, while notably reducing the generation of toxic
outputs. Our approach holds significant implications for fields that demand a
nuanced understanding and generation of responses, such as customer service. We
applied this methodology to Mistral, the most popular base model, thereby
creating Mistral-Plus. Our validation across 11 general tasks demonstrates that
Mistral-Plus outperforms similarly sized open-source base models and their
corresponding instruct versions. Importantly, the conversational abilities of
Mistral-Plus were significantly improved, indicating a substantial advancement
over traditional SFT models in both safety and user preference alignment.
- Abstract(参考訳): 近年,会話型大規模言語モデル (LLMs) の進歩により,多くの新ベースLLMが,SFT (Supervised Fine-Tuning) の後の基礎的能力の低下を経験する傾向がみられた。
このプロセスは、しばしば、忘れることやベースモデルの能力の低下といった問題を引き起こす。
さらに、微調整されたモデルはユーザーの好みに合わせるのに苦労し、特に刺激されたときに有害なアウトプットの生成を必然的に増加させます。
これらの課題を克服するために,我々は,SFTを完全にバイパスし,Herman Feedback (RLHF) からのハームレス強化学習を直接実施することで,革新的なアプローチを採用した。
本手法は,基本モデルの汎用性を維持できるだけでなく,その会話能力を大幅に向上させるとともに,有毒なアウトプットの生成を著しく減少させる。
弊社のアプローチは、顧客のサービスなど、微妙な理解と応答の生成を求める分野に重大な影響を与える。
この手法を最もポピュラーなベースモデルであるMistralに適用し、Mistral-Plusを作成しました。
11の一般的なタスクに対する検証は、Mistral-Plusが同様の規模のオープンソースベースモデルとそれに対応するインストラクションバージョンより優れていることを示す。
重要なことに、Mistral-Plusの会話能力は大幅に改善され、従来のSFTモデルよりも安全性とユーザの嗜好の両面で大幅に向上した。
関連論文リスト
- Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用するMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
人間の嗜好とLLMの整合性を高めるための簡単なExPO法を提案する。
AlpacaEval 2.0ベンチマークでは、ExPOがトレーニングされたモデルに、より好みの少ないデータで到達し、完全にトレーニングされたデータを超えていることが示されています。
本研究は,LLMの能力を利用したモデル外挿の有効性を実証する。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - TeaMs-RL: Teaching LLMs to Teach Themselves Better Instructions via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文 参考訳(メタデータ) (2024-03-13T16:57:57Z) - Causal Prompting: Debiasing Large Language Model Prompting based on
Front-Door Adjustment [24.932188867289533]
大規模言語モデルのバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は3つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - UltraFeedback: Boosting Language Models with High-quality Feedback [77.55342076933047]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要な技術となっている。
現在の選好データセットは、プロプライエタリなものか、サイズが限定されているか、あるいはプロプライエタリなものかのいずれかで、オープンソースモデルでのRLHFの採用が制限されている。
本稿では,これらの制限を克服し,RLHF開発を促進するために,大規模で高品質で多様な嗜好データセットを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。