論文の概要: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
- arxiv url: http://arxiv.org/abs/2404.00934v2
- Date: Wed, 3 Apr 2024 17:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 11:43:37.909853
- Title: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback
- Title(参考訳): ChatGLM-RLHF:人間のフィードバックによる大規模言語モデルの調整の実践
- Authors: Zhenyu Hou, Yilin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong,
- Abstract要約: ChatGLMは、大規模言語モデル(LLM)を利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
- 参考スコア(独自算出の注目度): 86.87638927637005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.
- Abstract(参考訳): ChatGLMは、大規模な言語モデル(LLM)のChatGLMファミリを利用した、無償のAIサービスである。
本稿では,ChatGLM-RLHFパイプラインについて述べる。
ChatGLM-RLHFは、人間の嗜好データの収集、報酬モデルのトレーニング、ポリシーの最適化の3つの主要なコンポーネントを含んでいる。
ChatGLM-RLHFを製品に統合するプロセスを通じて、私たちはいくつかの前例のない課題に遭遇し、対処しました。
大規模訓練における報酬分散を緩和する戦略を導入し, 連立モデルによるモデル並列化を実現し, LLMにおける破滅的な忘れ込みを避けるための正規化制約を設計する。
実験により、ChatGLM-RLHFは、教師付き微調整(SFT)バージョンのChatGLMと比較して、アライメントタスクに大きな改善をもたらすことが示された。
例えば、中国のアライメントタスクにおいて、ChatGLM-SFTに対する平均15倍の勝利を達成する。
本研究は,LLHF実装における課題とソリューションに関する洞察を提供するとともに,LLMと人間の嗜好の整合性を示す。
関連論文リスト
- ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Proxy-RLHF: Decoupling Generation and Alignment in Large Language Model
with Proxy [47.327200425168314]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) が人間の価値と一致することを確実にするための一般的なアプローチである。
本稿では,LLMの生成とアライメントを分離するProxy-RLHFを紹介する。
本手法は他の手法のトレーニングパラメータの1%に匹敵するアライメントのレベルを達成する。
論文 参考訳(メタデータ) (2024-03-07T07:31:00Z) - RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from
Fine-grained Correctional Human Feedback [103.08766858584049]
RLHF-Vは、微粒な人間のフィードバックから行動アライメントを通じてMLLMの信頼性を高める。
自動評価と人的評価の両方で5つのベンチマーク実験を行った結果、RLHF-Vはより信頼性の高いMLLM動作を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-12-01T11:36:08Z) - On the Exploitability of Reinforcement Learning with Human Feedback for
Large Language Models [67.29231594376493]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z) - SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to
RLHF [19.43122743768123]
提案するSteerLMは,ユーザによる推論時の応答制御を支援する教師付き微調整手法である。
SteerLM条件は、明示的に定義された多次元の属性セットに対応するために応答し、それによって、有用な高品質のレスポンスを生成することができるステアブルAIを増強する。
論文 参考訳(メタデータ) (2023-10-09T02:11:21Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。