Fugu-MT 論文翻訳(概要): OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

論文の概要: OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

arxiv url: http://arxiv.org/abs/2405.11143v5
Date: Fri, 04 Jul 2025 06:10:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-10 15:30:51.880342
Title: OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
Title（参考訳）: OpenRLHF: 使いやすくスケーラブルで高性能なRLHFフレームワーク
Authors: Jian Hu, Xibin Wu, Wei Shen, Jason Klein Liu, Zilin Zhu, Weixun Wang, Songlin Jiang, Haoran Wang, Hao Chen, Bin Chen, Weikai Fang, Xianyu, Yu Cao, Haotian Xu, Yiming Liu,
Abstract要約: 私たちは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリーでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークであるOpenRLHFを紹介します。実験の結果,OpenRLHFはモデルサイズによって1.22倍から1.68倍のスピードアップを達成できることがわかった。
参考スコア（独自算出の注目度）: 27.336483161388777
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) fine-tuned via Reinforcement Learning from Human Feedback (RLHF) and Reinforcement Learning with Verifiable Rewards (RLVR) significantly improve the alignment of human-AI values and further raise the upper bound of AI capabilities, particularly in reasoning-intensive, long-context Chain-of-Thought (long-CoT) tasks. However, existing RLHF (or RLVR) frameworks commonly face challenges such as inference bottlenecks and complexity barriers, restricting their accessibility for newcomers. To bridge this gap, we introduce OpenRLHF, a user-friendly, scalable, and easy-to-learn open-source RLHF framework built upon Ray, vLLM, DeepSpeed, and HuggingFace Transformers, featuring a simplified design, clear code structure, and comprehensive documentation to facilitate entry for researchers and practitioners. Experimental results show that OpenRLHF achieves superior training efficiency with speedups ranging from 1.22x to 1.68x across different model sizes compared to state-of-the-art frameworks, while requiring significantly fewer lines of code for implementation. OpenRLHF is publicly available at https://github.com/OpenRLHF/OpenRLHF, and has already been adopted by leading institutions to accelerate RLHF research and learning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、人間からのフィードバックからの強化学習(RLHF)と検証リワードによる強化学習(RLVR)を通じて微調整される。しかし、既存のRLHF(RLVR)フレームワークは一般的に、推論のボトルネックや複雑さの障壁といった問題に直面し、新参者へのアクセシビリティを制限している。このギャップを埋めるために、私たちはOpenRLHFを紹介します。これは、Ray、vLLM、DeepSpeed、HuggingFace Transformers上に構築された、ユーザフレンドリでスケーラブルで、簡単に学習できるオープンソースRLHFフレームワークです。実験結果から、OpenRLHFは、最先端のフレームワークに比べてモデルサイズが異なる1.22倍から1.68倍のスピードアップを実現し、実装に要するコード行数を著しく削減した。 OpenRLHFはhttps://github.com/OpenRLHF/OpenRLHFで公開されている。

関連論文リスト

RLHFless: Serverless Computing for Efficient RLHF [13.743738615300662]
Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) のポストトレーニングに広く応用されている。サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
論文参考訳（メタデータ） (2026-02-26T07:45:37Z)
Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文参考訳（メタデータ） (2025-12-15T18:02:35Z)
SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。これらのモデルは2つの根本的な課題に直面している。 VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文参考訳（メタデータ） (2025-09-11T17:59:17Z)
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。 RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文参考訳（メタデータ） (2024-12-08T17:19:48Z)
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文参考訳（メタデータ） (2024-10-23T19:59:50Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
論文参考訳（メタデータ） (2024-10-03T17:55:13Z)
The Perfect Blend: Redefining RLHF with Mixture of Judges [68.58426626501883]
人間のフィードバックによる強化学習(RLHF)が,大規模言語モデル(LLM)の指導的アプローチとなっている。 MTLにRLHFを適用するには、現在、報酬モデルとデータの組み合わせに対する重み付けを慎重に調整する必要がある。 CGPO(Constrained Generative Policy Optimization)と呼ばれる新しいポストトレーニングパラダイムを導入する。
論文参考訳（メタデータ） (2024-09-30T15:06:53Z)
RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。 RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文参考訳（メタデータ） (2024-05-13T15:50:39Z)
Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。 PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文参考訳（メタデータ） (2024-03-15T21:43:46Z)
TeaMs-RL: Teaching LLMs to Generate Better Instruction Datasets via Reinforcement Learning [7.9961739811640244]
大きな言語モデル(LLM)は、人間のアノテーションに大きく依存することによる課題に直面することが多い。この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。我々はRLを用いて、微調整だけで十分である基礎的な命令データセットを直接生成する。
論文参考訳（メタデータ） (2024-03-13T16:57:57Z)
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文参考訳（メタデータ） (2024-01-30T00:17:37Z)
OpenRL: A Unified Reinforcement Learning Framework [19.12129820612253]
先進的な強化学習(RL)フレームワークであるOpenRLを紹介する。シングルエージェントの課題から複雑なマルチエージェントシステムまで、さまざまなタスクに対応するように設計されている。自然言語処理(NLP)とRLを統合することで、研究者はRLトレーニングと言語中心のタスクを効果的に組み合わせることができる。
論文参考訳（メタデータ） (2023-12-20T12:04:06Z)
SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文参考訳（メタデータ） (2023-10-25T16:52:00Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Aligning Large Multimodal Models with Factually Augmented RLHF [176.54751941088819]
大規模マルチモーダルモデル(LMM)はモダリティにまたがって構築され、2つのモダリティ間のミスアライメントは「ハロシン化」をもたらす。テキスト領域から視覚言語アライメントのタスクまで,RLHF(Reinforcement Learning from Human Feedback)を適応させる。本稿では、報酬モデルに付加的な事実情報を追加するFactually Augmented RLHFという新しいアライメントアルゴリズムを提案する。提案手法は,テキストのみのGPT-4の性能レベルが94%であるLLaVA-Benchデータセットにおいて,顕著な改善を実現している。
論文参考訳（メタデータ） (2023-09-25T20:59:33Z)
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales [26.62712640037033]
本稿では、RLHFトレーニングを民主化し、AIコミュニティが利用できる新しいシステムであるDeepSpeed-Chatを紹介する。 DeepSpeed-Chatは、ChatGPTのようなモデルの使い勝手の良いトレーニングと推論エクスペリエンス、InstructGPTからトレーニングパイプラインを複製するDeepSpeed-RLHFパイプライン、トレーニングと推論のさまざまな最適化を統一的な方法で組み合わせた堅牢なDeepSpeed-RLHFシステム、の3つの重要な機能を提供する。
論文参考訳（メタデータ） (2023-08-02T18:49:57Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)
RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文参考訳（メタデータ） (2021-06-04T03:08:43Z)
Reinforcement Learning with Augmented Data [97.42819506719191]
本稿では,ほとんどのRLアルゴリズムを拡張可能なシンプルなプラグイン・アンド・プレイモジュールであるReinforcement Learning with Augmented Data (RAD)を提案する。本稿では,RLアルゴリズムが複雑な最先端手法より優れていることを示すために,ランダム翻訳,作物,カラージッタ,パッチカットアウト,ランダム畳み込み,振幅スケールなどの拡張法を提案する。
論文参考訳（メタデータ） (2020-04-30T17:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。