論文の概要: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
- arxiv url: http://arxiv.org/abs/2404.00934v2
- Date: Wed, 3 Apr 2024 17:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:43:37.909853
- Title: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
- Title(参考訳): ChatGLM-RLHF:人間のフィードバックによる大規模言語モデルの調整の実践
- Authors: Zhenyu Hou, Yilin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong,
- Abstract要約: ChatGLMは、大規模言語モデル(LLM)を利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
- 参考スコア(独自算出の注目度): 86.87638927637005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.
- Abstract(参考訳): ChatGLMは、大規模な言語モデル(LLM)のChatGLMファミリを利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
ChatGLM-RLHFは、人間の嗜好データの収集、報酬モデルのトレーニング、ポリシーの最適化の3つの主要なコンポーネントを含んでいる。
ChatGLM-RLHFを製品に統合するプロセスを通じて、私たちはいくつかの前例のない課題に遭遇し、対処しました。
大規模訓練における報酬分散を緩和する戦略を導入し, 連立モデルによるモデル並列化を実現し, LLMにおける破滅的な忘れ込みを避けるための正規化制約を設計する。
実験により、ChatGLM-RLHFは、教師付き微調整(SFT)バージョンのChatGLMと比較して、アライメントタスクに大きな改善をもたらすことが示された。
例えば、中国のアライメントタスクにおいて、ChatGLM-SFTに対する平均15倍の勝利を達成する。
本研究は,LLHF実装における課題とソリューションに関する洞察を提供するとともに,LLMと人間の嗜好の整合性を示す。
関連論文リスト
- MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。
MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。
CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2024-09-30T15:06:53Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model
with Proxy [47.327200425168314]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。
本稿では,LLMの生成とアライメントを分離するProxy-RLHFを紹介する。
本手法は他の手法のトレーニングパラメータの1%に匹敵するアライメントのレベルを達成する。
論文 参考訳(メタデータ) (2024-03-07T07:31:00Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。