論文の概要: DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like
Models at All Scales
- arxiv url: http://arxiv.org/abs/2308.01320v1
- Date: Wed, 2 Aug 2023 18:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 16:28:33.721225
- Title: DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like
Models at All Scales
- Title(参考訳): DeepSpeed-Chat: 任意のスケールでのChatGPTライクなモデルの簡易かつ高速かつ高精度なRLHFトレーニング
- Authors: Zhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam
Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang,
Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev
Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song,
Yuxiong He
- Abstract要約: 本稿では、RLHFトレーニングを民主化し、AIコミュニティが利用できる新しいシステムであるDeepSpeed-Chatを紹介する。
DeepSpeed-Chatは、ChatGPTのようなモデルの使い勝手の良いトレーニングと推論エクスペリエンス、InstructGPTからトレーニングパイプラインを複製するDeepSpeed-RLHFパイプライン、トレーニングと推論のさまざまな最適化を統一的な方法で組み合わせた堅牢なDeepSpeed-RLHFシステム、の3つの重要な機能を提供する。
- 参考スコア(独自算出の注目度): 26.62712640037033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: ChatGPT-like models have revolutionized various applications in artificial
intelligence, from summarization and coding to translation, matching or even
surpassing human performance. However, the current landscape lacks an
accessible, efficient, and cost-effective end-to-end RLHF (Reinforcement
Learning with Human Feedback) training pipeline for these powerful models,
particularly when training at the scale of billions of parameters. This paper
introduces DeepSpeed-Chat, a novel system that democratizes RLHF training,
making it accessible to the AI community. DeepSpeed-Chat offers three key
capabilities: an easy-to-use training and inference experience for ChatGPT-like
models, a DeepSpeed-RLHF pipeline that replicates the training pipeline from
InstructGPT, and a robust DeepSpeed-RLHF system that combines various
optimizations for training and inference in a unified way. The system delivers
unparalleled efficiency and scalability, enabling training of models with
hundreds of billions of parameters in record time and at a fraction of the
cost. With this development, DeepSpeed-Chat paves the way for broader access to
advanced RLHF training, even for data scientists with limited resources,
thereby fostering innovation and further development in the field of AI.
- Abstract(参考訳): ChatGPTのようなモデルは、要約やコーディングから翻訳、マッチング、あるいは人間のパフォーマンスを超えたものまで、人工知能の様々な応用に革命をもたらした。
しかしながら、現在の状況は、これらの強力なモデル、特に数十億のパラメータのスケールでのトレーニングにおいて、アクセス可能で効率的で費用効率のよいRLHF(Reinforcement Learning with Human Feedback)トレーニングパイプラインを欠いている。
本稿では、RLHFトレーニングを民主化し、AIコミュニティが利用できる新しいシステムであるDeepSpeed-Chatを紹介する。
DeepSpeed-Chatは、ChatGPTのようなモデルの使い勝手の良いトレーニングと推論エクスペリエンス、InstructGPTからトレーニングパイプラインを複製するDeepSpeed-RLHFパイプライン、トレーニングと推論のさまざまな最適化を統一的に組み合わせた堅牢なDeepSpeed-RLHFシステム、の3つの重要な機能を提供する。
このシステムは非並列の効率性とスケーラビリティを提供し、記録的な時間とわずかなコストで数十億のパラメータを持つモデルのトレーニングを可能にする。
この開発により、deepspeed-chatは、リソースが限られているデータサイエンティストでさえ、高度なrlhfトレーニングへの幅広いアクセスへの道を開き、aiの分野におけるイノベーションとさらなる発展を促進している。
関連論文リスト
- Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework [11.745186056668295]
提案するOpenRLHFは,効率的なRLHFスケーリングを実現するオープンソースフレームワークである。
OpenRLHFは、Ray、vLLM、DeepSpeedを使用して70Bパラメータを超えるモデルのスケジューリングを再設計する。
Hugging Faceとシームレスに統合されたOpenRLHFは、最適化されたアルゴリズムとローンチスクリプトを備えたアウトオブボックスソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-20T01:04:40Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for
Efficient Deep-Reinforcement Learning [7.990007201671364]
効率的な深部RL(RAPID-RL)のためのプリエンプティブ出口を持つ再構成可能なアーキテクチャを提案する。
RAPID-RLは入力の難易度に基づいてプリエンプティブ層の条件付き活性化を可能にする。
RAPID-RL は Atari (Drone Navigation) タスクにおいて 0.88x (0.91x) 以上の性能を維持しながら, 演算数 0.34x (0.25x) を発生させることを示す。
論文 参考訳(メタデータ) (2021-09-16T21:30:40Z) - Podracer architectures for scalable Reinforcement Learning [23.369001500657028]
強化学習(RL)エージェントを大規模に訓練する方法はまだ活発な研究分野である。
このレポートでは、TPUはスケーラブルで効率的で再現性の高い方法でRLエージェントをトレーニングするのに特に適しています。
論文 参考訳(メタデータ) (2021-04-13T15:05:35Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。