論文の概要: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- arxiv url: http://arxiv.org/abs/2507.22789v2
- Date: Thu, 31 Jul 2025 02:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.730867
- Title: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- Title(参考訳): G-Core: シンプルでスケーラブルでバランスの取れたRLHFトレーナー
- Authors: Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Haoqiang Hong, Boqi Liu, Hongtao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。
これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
- 参考スコア(独自算出の注目度): 35.65011046623611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become an increasingly popular paradigm for training large language models (LLMs) and diffusion models. While existing RLHF training systems have enabled significant progress, they often face challenges in scaling to multi-modal and diffusion workflows and adapting to dynamic workloads. In particular, current approaches may encounter limitations in controller scalability, flexible resource placement, and efficient orchestration when handling complex RLHF pipelines, especially in scenarios involving dynamic sampling or generative reward modeling. In this paper, we present \textbf{G-Core}, a simple, scalable, and balanced RLHF training framework designed to address these challenges. G-Core introduces a parallel controller programming model, enabling flexible and efficient orchestration of complex RLHF workflows without the bottlenecks of a single centralized controller. Furthermore, we propose a dynamic placement schema that adaptively partitions resources and schedules workloads, significantly reducing hardware idle time and improving utilization, even under highly variable training conditions. G-Core has successfully trained models that support WeChat product features serving a large-scale user base, demonstrating its effectiveness and robustness in real-world scenarios. Our results show that G-Core advances the state of the art in RLHF training, providing a solid foundation for future research and deployment of large-scale, human-aligned models.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)と拡散モデルのトレーニングにおいて、ますます人気のあるパラダイムとなっている。
既存のRLHFトレーニングシステムは大幅に進歩しているが、マルチモーダルワークフローや拡散ワークフローへのスケーリングや動的ワークロードへの適応といった課題に直面していることが多い。
特に、現在のアプローチでは、複雑なRLHFパイプラインを扱う際に、コントローラのスケーラビリティ、柔軟なリソース配置、効率的なオーケストレーションの制限に直面する可能性がある。
本稿では,これらの課題に対処すべく,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである \textbf{G-Core} を提案する。
G-Coreは並列コントローラプログラミングモデルを導入し、単一の集中型コントローラのボトルネックなしに複雑なRLHFワークフローの柔軟かつ効率的なオーケストレーションを可能にする。
さらに,リソースを適応的に分割し,ワークロードをスケジュールする動的配置スキーマを提案する。
G-Coreは大規模なユーザベースを提供するWeChat製品機能をサポートするモデルをトレーニングし、実世界のシナリオにおけるその有効性と堅牢性を実証した。
以上の結果から、G-CoreはRLHFトレーニングの最先端を推し進め、大規模で人間と協調したモデルの研究と展開の基盤となることが示唆された。
関連論文リスト
- Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - Multi-fidelity Reinforcement Learning Control for Complex Dynamical Systems [42.2790464348673]
複雑なシステムの不安定性を制御するための多要素強化学習フレームワークを提案する。
提案手法が物理学における2つの複雑な力学に与える影響を実証する。
論文 参考訳(メタデータ) (2025-04-08T00:50:15Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework [27.336483161388777]
私たちは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリーでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークであるOpenRLHFを紹介します。
実験の結果,OpenRLHFはモデルサイズによって1.22倍から1.68倍のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2024-05-20T01:04:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Deep Reinforcement Learning for Computational Fluid Dynamics on HPC
Systems [17.10464381844892]
強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。
近年の研究では、RL強化計算流体力学(CFD)の解法が最先端技術を超えることが示唆されている。
我々は、機械学習とHPCシステム上の最新のCFDソルバ間のギャップを埋めるスケーラブルなRLフレームワークとしてRelexiを提示する。
論文 参考訳(メタデータ) (2022-05-13T08:21:18Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。