Fugu-MT 論文翻訳(概要): The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

論文の概要: The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization

arxiv url: http://arxiv.org/abs/2403.17031v1
Date: Sun, 24 Mar 2024 02:59:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:05:20.507505
Title: The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization
Title（参考訳）: PPOを用いたRLHFのN+実装詳細:TL;DR要約を事例として
Authors: Shengyi Huang, Michael Noukhovitch, Arian Hosseini, Kashif Rasul, Weixun Wang, Lewis Tunstall,
Abstract要約: この研究は、OpenAIのセミナルTL;DR要約作業で報告された人間のフィードバックスケーリング行動から強化学習をオープンに再現した最初のものである。我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。
参考スコア（独自算出の注目度）: 8.911768677958753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work is the first to openly reproduce the Reinforcement Learning from Human Feedback (RLHF) scaling behaviors reported in OpenAI's seminal TL;DR summarization work. We create an RLHF pipeline from scratch, enumerate over 20 key implementation details, and share key insights during the reproduction. Our RLHF-trained Pythia models demonstrate significant gains in response quality that scale with model size, with our 2.8B, 6.9B models outperforming OpenAI's released 1.3B checkpoint. We publicly release the trained model checkpoints and code to facilitate further research and accelerate progress in the field (\url{https://github.com/vwxyzjn/summarize_from_feedback_details}).
Abstract（参考訳）: この研究は、OpenAIのセミナルTL;DR要約作業で報告されたRLHF(Reinforcement Learning from Human Feedback)スケーリングの振る舞いをオープンに再現した最初のものである。我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。 RLHFでトレーニングされたPythiaモデルは、モデルサイズに合わせてスケールする応答品質が大幅に向上し、OpenAIがリリースした1.3Bチェックポイントを上回る2.8B、6.9Bモデルです。トレーニング済みのモデルチェックポイントとコードを公開して、さらなる研究を促進し、フィールドの進捗を加速します(\url{https://github.com/vwxyzjn/summarize_from_feedback_details})。

関連論文リスト

Skywork Open Reasoner 1 Technical Report [51.403686909760914]
提案するSkywork-OR1は,長期チェーン・オブ・ソート(CoT)モデルのための,効果的かつスケーラブルな強化学習(RL)実装である。 DeepSeek-R1-Distillモデルシリーズをベースとして、我々のRLアプローチは顕著なパフォーマンス向上を実現している。我々のSkywork-OR1-32Bモデルは、AIME24とAIME25ベンチマークでDeepSeek-R1とQwen3-32Bを上回っています。
論文参考訳（メタデータ） (2025-05-28T12:56:04Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Does RLHF Scale? Exploring the Impacts From Data, Model, and Method [83.53178716807776]
本研究では,大規模言語モデルにおける人間のフィードバックからの強化学習のスケーリング特性について検討する。 RLHFフレームワークの主要なコンポーネント、モデルサイズ、データ構成、推論予算、およびそれらのパフォーマンスへの影響を分析します。
論文参考訳（メタデータ） (2024-12-08T17:19:48Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
DogeRM: Equipping Reward Models with Domain Knowledge through Model Merging [65.41765072566287]
textbfDomain knowledtextbfge merged textbfReward textbfModel(DogeRM)を提案する。
論文参考訳（メタデータ） (2024-07-01T17:01:54Z)
RLHF Workflow: From Reward Modeling to Online RLHF [79.83927049253924]
本稿では,RLHF(Online Iterative Reinforcement Learning from Human Feedback)のワークフローについて報告する。 RLHFは、最近の大規模言語モデル(LLM)文学において、オフライン言語よりもはるかに優れていると広く報告されている。教師付き微調整(SFT)と反復RLHFは,完全なオープンソースデータセットを用いて最先端の性能を得ることができることを示す。
論文参考訳（メタデータ） (2024-05-13T15:50:39Z)
A Theoretical Framework for Partially Observed Reward-States in RLHF [39.41038579993645]
部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
論文参考訳（メタデータ） (2024-02-05T18:38:55Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
RRHF: Rank Responses to Align Language Models with Human Feedback without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文参考訳（メタデータ） (2023-04-11T15:53:40Z)
Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文参考訳（メタデータ） (2022-12-19T23:45:05Z)
RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文参考訳（メタデータ） (2021-06-08T03:30:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。