論文の概要: ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation
- arxiv url: http://arxiv.org/abs/2308.02223v1
- Date: Fri, 4 Aug 2023 09:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 13:22:55.485458
- Title: ESRL: Efficient Sampling-based Reinforcement Learning for Sequence
Generation
- Title(参考訳): esrl: 効率的なサンプリングベース強化学習によるシーケンス生成
- Authors: Chenglong Wang, Hang Zhou, Yimin Hu, Yifu Huo, Bei Li, Tongran Liu,
Tong Xiao, Jingbo Zhu
- Abstract要約: 本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
- 参考スコア(独自算出の注目度): 43.506732624371786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Applying Reinforcement Learning (RL) to sequence generation models enables
the direct optimization of long-term rewards (\textit{e.g.,} BLEU and human
feedback), but typically requires large-scale sampling over a space of action
sequences. This is a computational challenge as presented by the practice of
sequence generation problems, such as machine translation, where we often deal
with a large action space (\textit{e.g.,} a vocabulary) and a long action
sequence (\textit{e.g.,} a translation). In this work, we introduce two-stage
sampling and dynamic sampling approaches to improve the sampling efficiency
during training sequence generation models via RL. We experiment with our
approaches on the traditional sequence generation tasks, including machine
translation and abstractive summarization. Furthermore, we evaluate our
approaches in RL from human feedback (RLHF) through training a large language
model using the reward model. Experimental results show that the efficient
sampling-based RL, referred to as ESRL, can outperform all baselines in terms
of both training efficiency and memory consumption. Notably, ESRL yields
consistent performance gains over the strong REINFORCE, minimum risk training,
and proximal policy optimization methods.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)をシーケンス生成モデルに適用することにより、長期報酬(BLEUなど)の直接最適化が可能になるが、通常、アクションシーケンスの空間を大規模にサンプリングする必要がある。
これは、機械翻訳(英語版)のようなシーケンス生成問題(英語版)の実践によって提示される計算上の問題であり、大きなアクション空間(英語版) (\textit{e.g.,} 語彙) と長いアクションシーケンス (\textit{e.,} 翻訳) を扱うことが多い。
本稿では,RLを用いたトレーニングシーケンス生成モデルにおいて,サンプリング効率を向上させるための2段階サンプリング手法と動的サンプリング手法を提案する。
我々は、機械翻訳や抽象要約を含む従来のシーケンス生成タスクのアプローチを実験する。
さらに,報奨モデルを用いた大規模言語モデルの学習を通じて,人間のフィードバック(RLHF)からRLへのアプローチを評価する。
実験結果から,ESRLと呼ばれる効率的なサンプリングベースRLは,トレーニング効率とメモリ消費の両方の観点から,すべてのベースラインを上回り得ることが示された。
特にESRLは、強力なREINFORCE、最小リスクトレーニング、および近似ポリシー最適化手法に対して、一貫した性能向上をもたらす。
関連論文リスト
- Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Reinforced Self-Training (ReST) for Language Modeling [56.75447441157628]
人間からのフィードバック(RLHF)からの強化学習は、人間の好みに合わせることで、大きな言語モデル(LLM)の出力の品質を向上させることができる。
強化自己学習(Reinforced Self-Training, ReST)と呼ばれる, バッチ強化学習(RL)の成長にインスパイアされたLLMを人間の好みに合わせるための簡単なアルゴリズムを提案する。
この結果から,ReSTは自動測定値と機械翻訳ベンチマークの人的評価によって,計算とサンプル効率で翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-08-17T14:12:48Z) - KRLS: Improving End-to-End Response Generation in Task Oriented Dialog
with Reinforced Keywords Learning [25.421649004269373]
タスク指向ダイアログ(TOD)では、強化学習アルゴリズムがタスク関連メトリクスの応答を直接最適化するためにモデルを訓練する。
オフライン環境でのTOD性能を改善するために,より効率的なRLベースのアルゴリズムを提案する。
MultiWoZデータセットの実験では、我々の新しいトレーニングアルゴリズムであるKeywords Reinforcement Learning with Next-word Smpling (KRLS)が最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-11-30T06:27:46Z) - Teacher Forcing Recovers Reward Functions for Text Generation [21.186397113834506]
本稿では,教師の強制力で訓練されたモデルから直接,ステップワイズ報酬関数を導出するタスク依存型手法を提案する。
また、並列でないデータセットに対するRLトレーニングを誘導報酬関数で安定化するための簡単な修正も提案する。
論文 参考訳(メタデータ) (2022-10-17T02:48:58Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。