論文の概要: Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing
Conversational LLMs with Direct RLHF
- arxiv url: http://arxiv.org/abs/2403.02513v1
- Date: Mon, 4 Mar 2024 22:02:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:48:30.592417
- Title: Balancing Enhancement, Harmlessness, and General Capabilities: Enhancing
Conversational LLMs with Direct RLHF
- Title(参考訳): バランス強化・無害・一般能力:直接RLHFによる会話型LLMの強化
- Authors: Chen Zheng, Ke Sun, Hang Wu, Chenguang Xi, Xun Zhou
- Abstract要約: 我々は、監視ファインチューニング(SFT)を完全に回避し、ヒューマンフィードバック(RLHF)からのハームレス強化学習を直接実装した革新的なアプローチを提案する。
提案手法は, 基本モデルの汎用能力を保ちつつ, その会話能力を大幅に向上させるとともに, 有害な出力の発生を著しく低減する。
11の一般的なタスクに対する検証は、Mistral-Plusが同様の規模のオープンソースベースモデルとそれに対応するインストラクションバージョンより優れていることを示す。
- 参考スコア(独自算出の注目度): 19.115536480244305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent advancements in Conversational Large Language Models (LLMs), a
concerning trend has emerged, showing that many new base LLMs experience a
knowledge reduction in their foundational capabilities following Supervised
Fine-Tuning (SFT). This process often leads to issues such as forgetting or a
decrease in the base model's abilities. Moreover, fine-tuned models struggle to
align with user preferences, inadvertently increasing the generation of toxic
outputs when specifically prompted. To overcome these challenges, we adopted an
innovative approach by completely bypassing SFT and directly implementing
Harmless Reinforcement Learning from Human Feedback (RLHF). Our method not only
preserves the base model's general capabilities but also significantly enhances
its conversational abilities, while notably reducing the generation of toxic
outputs. Our approach holds significant implications for fields that demand a
nuanced understanding and generation of responses, such as customer service. We
applied this methodology to Mistral, the most popular base model, thereby
creating Mistral-Plus. Our validation across 11 general tasks demonstrates that
Mistral-Plus outperforms similarly sized open-source base models and their
corresponding instruct versions. Importantly, the conversational abilities of
Mistral-Plus were significantly improved, indicating a substantial advancement
over traditional SFT models in both safety and user preference alignment.
- Abstract(参考訳): 近年,会話型大規模言語モデル (LLMs) の進歩により,多くの新ベースLLMが,SFT (Supervised Fine-Tuning) の後の基礎的能力の低下を経験する傾向がみられた。
このプロセスは、しばしば、忘れることやベースモデルの能力の低下といった問題を引き起こす。
さらに、微調整されたモデルはユーザーの好みに合わせるのに苦労し、特に刺激されたときに有害なアウトプットの生成を必然的に増加させます。
これらの課題を克服するために,我々は,SFTを完全にバイパスし,Herman Feedback (RLHF) からのハームレス強化学習を直接実施することで,革新的なアプローチを採用した。
本手法は,基本モデルの汎用性を維持できるだけでなく,その会話能力を大幅に向上させるとともに,有毒なアウトプットの生成を著しく減少させる。
弊社のアプローチは、顧客のサービスなど、微妙な理解と応答の生成を求める分野に重大な影響を与える。
この手法を最もポピュラーなベースモデルであるMistralに適用し、Mistral-Plusを作成しました。
11の一般的なタスクに対する検証は、Mistral-Plusが同様の規模のオープンソースベースモデルとそれに対応するインストラクションバージョンより優れていることを示す。
重要なことに、Mistral-Plusの会話能力は大幅に改善され、従来のSFTモデルよりも安全性とユーザの嗜好の両面で大幅に向上した。
関連論文リスト
- Self-Evolved Reward Learning for LLMs [45.6910747154447]
RLHF(Reinforcement Learning from Human Feedback)は、言語モデルと人間の嗜好を整合させる重要な手法である。
本稿では、RMが反復的に自己改善するための追加のトレーニングデータを生成する新しいアプローチである自己進化リワード学習(SER:Self-Evolved Reward Learning)を提案する。
以上の結果から,人間による注釈付きデータであっても,自己フィードバックから学習することで,RM性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-01T07:29:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Preserving Knowledge in Large Language Model with Model-Agnostic Self-Decompression [40.4998607679863]
大規模言語モデル(LLM)は、ドメイン固有のデータに対して、事前訓練後または監督された微調整後(SFT)において、破滅的な忘れ込みに悩まされることが多い。
本稿では,TG-SFTに着目し,SFTデータを合成的に生成する。
論文 参考訳(メタデータ) (2024-06-17T09:17:40Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。