論文の概要: RLHFless: Serverless Computing for Efficient RLHF
- arxiv url: http://arxiv.org/abs/2602.22718v1
- Date: Thu, 26 Feb 2026 07:45:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.582717
- Title: RLHFless: Serverless Computing for Efficient RLHF
- Title(参考訳): RLHFless: 効率的なRLHFのためのサーバーレスコンピューティング
- Authors: Rui Wei, Hanfei Yu, Shubham Jain, Yogarajan Sivakumar, Devesh Tiwari, Jian Li, Seung-Jong Park, Hao Wang,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) のポストトレーニングに広く応用されている。
サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
- 参考スコア(独自算出の注目度): 13.743738615300662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has been widely applied to Large Language Model (LLM) post-training to align model outputs with human preferences. Recent models, such as DeepSeek-R1, have also shown RLHF's potential to improve LLM reasoning on complex tasks. In RL, inference and training co-exist, creating dynamic resource demands throughout the workflow. Compared to traditional RL, RLHF further challenges training efficiency due to expanding model sizes and resource consumption. Several RLHF frameworks aim to balance flexible abstraction and efficient execution. However, they rely on serverful infrastructures, which struggle with fine-grained resource variability. As a result, during synchronous RLHF training, idle time between or within RL components often causes overhead and resource wastage. To address these issues, we present RLHFless, the first scalable training framework for synchronous RLHF, built on serverless computing environments. RLHFless adapts to dynamic resource demands throughout the RLHF pipeline, pre-computes shared prefixes to avoid repeated computation, and uses a cost-aware actor scaling strategy that accounts for response length variation to find sweet spots with lower cost and higher speed. In addition, RLHFless assigns workloads efficiently to reduce intra-function imbalance and idle time. Experiments on both physical testbeds and a large-scale simulated cluster show that RLHFless achieves up to 1.35x speedup and 44.8% cost reduction compared to the state-of-the-art baseline.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、Large Language Model (LLM) のポストトレーニングに広く応用され、モデル出力を人間の好みに合わせる。
近年のDeepSeek-R1のようなモデルは、複雑なタスクにおけるLLM推論を改善するRLHFの可能性を示している。
RLでは、推論とトレーニングが共存し、ワークフロー全体にわたって動的なリソース要求を生成する。
従来のRLと比較して、RLHFはモデルサイズとリソース消費の拡大によるトレーニング効率のさらなる向上に挑戦する。
いくつかのRLHFフレームワークは、柔軟な抽象化と効率的な実行のバランスを目指している。
しかし、それらは、きめ細かいリソースのばらつきに苦しむサーバーフルなインフラに依存している。
その結果、同期RLHFトレーニングの間、RLコンポーネント間のアイドル時間は、しばしばオーバーヘッドとリソースの浪費を引き起こす。
これらの問題に対処するために、サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
RLHFlessはRLHFパイプライン全体の動的リソース要求に適応し、共有プレフィックスをプリコンプリートして繰り返し計算を回避し、応答長の変化を考慮に入れたコスト対応アクタスケーリング戦略を使用して、低コストで高速なスイートスポットを見つける。
さらに、RLHFlessはワークロードを効率的に割り当て、機能内不均衡とアイドル時間を削減する。
物理的テストベッドと大規模なシミュレーションクラスタの実験により、RLHFlessは最先端のベースラインと比較して最大1.35倍のスピードアップと44.8%のコスト削減を達成した。
関連論文リスト
- RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。
RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文 参考訳(メタデータ) (2024-12-08T17:19:48Z) - Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
オンラインDPOは、政治以外のデータに対して最も堅牢である。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework [29.16323641419201]
ヒューマンフィードバック(RLHF)からの強化学習による大規模言語モデル(LLM)の微調整
OpenRLHFは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリーでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークである。
論文 参考訳(メタデータ) (2024-05-20T01:04:40Z) - RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。
RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。
教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。