論文の概要: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- arxiv url: http://arxiv.org/abs/2507.22789v2
- Date: Thu, 31 Jul 2025 02:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 13:02:07.730867
- Title: G-Core: A Simple, Scalable and Balanced RLHF Trainer
- Title(参考訳): G-Core: シンプルでスケーラブルでバランスの取れたRLHFトレーナー
- Authors: Junyu Wu, Weiming Chang, Xiaotao Liu, Guanyou He, Haoqiang Hong, Boqi Liu, Hongtao Tian, Tao Yang, Yunsheng Shi, Feng Lin, Ting Yao,
- Abstract要約: RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルのトレーニングにおいて、ますます一般的なパラダイムになりつつある。
これらの課題に対処するために設計された,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである textbfG-Core を提案する。
- 参考スコア(独自算出の注目度): 35.65011046623611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become an increasingly popular paradigm for training large language models (LLMs) and diffusion models. While existing RLHF training systems have enabled significant progress, they often face challenges in scaling to multi-modal and diffusion workflows and adapting to dynamic workloads. In particular, current approaches may encounter limitations in controller scalability, flexible resource placement, and efficient orchestration when handling complex RLHF pipelines, especially in scenarios involving dynamic sampling or generative reward modeling. In this paper, we present \textbf{G-Core}, a simple, scalable, and balanced RLHF training framework designed to address these challenges. G-Core introduces a parallel controller programming model, enabling flexible and efficient orchestration of complex RLHF workflows without the bottlenecks of a single centralized controller. Furthermore, we propose a dynamic placement schema that adaptively partitions resources and schedules workloads, significantly reducing hardware idle time and improving utilization, even under highly variable training conditions. G-Core has successfully trained models that support WeChat product features serving a large-scale user base, demonstrating its effectiveness and robustness in real-world scenarios. Our results show that G-Core advances the state of the art in RLHF training, providing a solid foundation for future research and deployment of large-scale, human-aligned models.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)と拡散モデルのトレーニングにおいて、ますます人気のあるパラダイムとなっている。
既存のRLHFトレーニングシステムは大幅に進歩しているが、マルチモーダルワークフローや拡散ワークフローへのスケーリングや動的ワークロードへの適応といった課題に直面していることが多い。
特に、現在のアプローチでは、複雑なRLHFパイプラインを扱う際に、コントローラのスケーラビリティ、柔軟なリソース配置、効率的なオーケストレーションの制限に直面する可能性がある。
本稿では,これらの課題に対処すべく,シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである \textbf{G-Core} を提案する。
G-Coreは並列コントローラプログラミングモデルを導入し、単一の集中型コントローラのボトルネックなしに複雑なRLHFワークフローの柔軟かつ効率的なオーケストレーションを可能にする。
さらに,リソースを適応的に分割し,ワークロードをスケジュールする動的配置スキーマを提案する。
G-Coreは大規模なユーザベースを提供するWeChat製品機能をサポートするモデルをトレーニングし、実世界のシナリオにおけるその有効性と堅牢性を実証した。
以上の結果から、G-CoreはRLHFトレーニングの最先端を推し進め、大規模で人間と協調したモデルの研究と展開の基盤となることが示唆された。
関連論文リスト
- RLHFless: Serverless Computing for Efficient RLHF [13.743738615300662]
Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) のポストトレーニングに広く応用されている。
サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
論文 参考訳(メタデータ) (2026-02-26T07:45:37Z) - SCALER:Synthetic Scalable Adaptive Learning Environment for Reasoning [24.80806018678682]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を高めるための原則的な方法である。
実際には、RLの進捗は、タスクの難しさがモデル能力と整合しなくなると遅くなります。
本稿では,適応環境設計による効果的な学習信号を維持する枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:42:04Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning [61.380634253724594]
次トーケン予測に基づく大規模自己回帰モデルの構築と強化学習(RL)による微調整
自己回帰モデルの内部表現を動作させ,探索することにより,この問題を克服できることを示す。
論文 参考訳(メタデータ) (2025-12-23T18:51:50Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文 参考訳(メタデータ) (2025-08-28T17:18:31Z) - WeChat-YATT: A Scalable, Simple, Efficient, and Production Ready Training Library [34.5103280294468]
WeChat-YATT Yet Another Transformer Trainer (YATT)は、シンプルでスケーラブルでバランスの取れたRLHFトレーニングフレームワークである。
YATTは、複雑なRLHFの柔軟かつ効率的なオーケストレーションを可能にする並列コントローラプログラミングモデルを備えている。
WeChat-YATTを様々な実験シナリオで評価し、最先端のRLHFトレーニングフレームワークよりも大幅にスループットが向上したことを示す。
論文 参考訳(メタデータ) (2025-08-11T13:31:53Z) - Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - Multi-fidelity Reinforcement Learning Control for Complex Dynamical Systems [42.2790464348673]
複雑なシステムの不安定性を制御するための多要素強化学習フレームワークを提案する。
提案手法が物理学における2つの複雑な力学に与える影響を実証する。
論文 参考訳(メタデータ) (2025-04-08T00:50:15Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework [27.336483161388777]
私たちは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリーでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークであるOpenRLHFを紹介します。
実験の結果,OpenRLHFはモデルサイズによって1.22倍から1.68倍のスピードアップを達成できることがわかった。
論文 参考訳(メタデータ) (2024-05-20T01:04:40Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - An Adaptive Placement and Parallelism Framework for Accelerating RLHF Training [11.749347656959822]
2つの一般的なアジャイルモデル配置戦略を提供するフレキシブルなモデル配置フレームワークを提案する。
私たちのフレームワークは、さまざまなトレーニングシナリオにおいて、これらの戦略を簡単にかつ柔軟に設定するための、シンプルなユーザインターフェースとガイドラインを提供します。
論文 参考訳(メタデータ) (2023-12-19T03:24:55Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Deep Reinforcement Learning for Computational Fluid Dynamics on HPC
Systems [17.10464381844892]
強化学習(Reinforcement Learning, RL)は、動的システムの文脈における制御戦略の考案に非常に適している。
近年の研究では、RL強化計算流体力学(CFD)の解法が最先端技術を超えることが示唆されている。
我々は、機械学習とHPCシステム上の最新のCFDソルバ間のギャップを埋めるスケーラブルなRLフレームワークとしてRelexiを提示する。
論文 参考訳(メタデータ) (2022-05-13T08:21:18Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。