論文の概要: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- arxiv url: http://arxiv.org/abs/2507.22789v2
- Date: Thu, 31 Jul 2025 02:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.730867
- Title: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- Title(参考訳): G-Core: シンプルでスケーラブルでバランスの取れたRLHFトレーナー
- Authors: Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Haoqiang Hong, Boqi Liu, Hongtao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。
これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
- 参考スコア(独自算出の注目度): 35.65011046623611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become an increasingly popular paradigm for training large language models (LLMs) and diffusion models. While existing RLHF training systems have enabled significant progress, they often face challenges in scaling to multi-modal and diffusion workflows and adapting to dynamic workloads. In particular, current approaches may encounter limitations in controller scalability, flexible resource placement, and efficient orchestration when handling complex RLHF pipelines, especially in scenarios involving dynamic sampling or generative reward modeling. In this paper, we present \textbf{G-Core}, a simple, scalable, and balanced RLHF training framework designed to address these challenges. G-Core introduces a parallel controller programming model, enabling flexible and efficient orchestration of complex RLHF workflows without the bottlenecks of a single centralized controller. Furthermore, we propose a dynamic placement schema that adaptively partitions resources and schedules workloads, significantly reducing hardware idle time and improving utilization, even under highly variable training conditions. G-Core has successfully trained models that support WeChat product features serving a large-scale user base, demonstrating its effectiveness and robustness in real-world scenarios. Our results show that G-Core advances the state of the art in RLHF training, providing a solid foundation for future research and deployment of large-scale, human-aligned models.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)と拡散モデルのトレーニングにおいて、ますます人気のあるパラダイムとなっている。
既存のRLHFトレーニングシステムは大幅に進歩しているが、マルチモーダルワークフローや拡散ワークフローへのスケーリングや動的ワークロードへの適応といった課題に直面していることが多い。
特に、現在のアプローチでは、複雑なRLHFパイプラインを扱う際に、コントローラのスケーラビリティ、柔軟なリソース配置、効率的なオーケストレーションの制限に直面する可能性がある。
本稿では,これらの課題に対処すべく,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである \textbf{G-Core} を提案する。
G-Coreは並列コントローラプログラミングモデルを導入し、単一の集中型コントローラのボトルネックなしに複雑なRLHFワークフローの柔軟かつ効率的なオーケストレーションを可能にする。
さらに,リソースを適応的に分割し,ワークロードをスケジュールする動的配置スキーマを提案する。
G-Coreは大規模なユーザベースを提供するWeChat製品機能をサポートするモデルをトレーニングし、実世界のシナリオにおけるその有効性と堅牢性を実証した。
以上の結果から、G-CoreはRLHFトレーニングの最先端を推し進め、大規模で人間と協調したモデルの研究と展開の基盤となることが示唆された。
関連論文リスト
- Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework [27.336483161388777]
私たちは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリーでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークであるOpenRLHFを紹介します。
実験の結果,OpenRLHFはモデルサイズによって1.22倍から1.68倍のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2024-05-20T01:04:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。