論文の概要: Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint
- arxiv url: http://arxiv.org/abs/2401.06081v1
- Date: Thu, 11 Jan 2024 17:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:34:10.815654
- Title: Improving Large Language Models via Fine-grained Reinforcement Learning
with Minimum Editing Constraint
- Title(参考訳): 最小編集制約によるきめ細かい強化学習による大規模言語モデルの改善
- Authors: Zhipeng Chen, Kun Zhou, Wayne Xin Zhao, Junchen Wan, Fuzheng Zhang, Di
Zhang and Ji-Rong Wen
- Abstract要約: 強化学習(RL)は、大規模言語モデルの訓練に広く用いられている。
生成モデルを報酬モデルとして組み込んだ新しいRL法 textbfRLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
- 参考スコア(独自算出の注目度): 109.77895659878442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been widely used in training large language
models~(LLMs) for preventing unexpected outputs, \eg reducing harmfulness and
errors. However, existing RL methods mostly adopt the instance-level reward,
which is unable to provide fine-grained supervision for complex reasoning
tasks, and can not focus on the few key tokens that lead to the incorrectness.
To address it, we propose a new RL method named \textbf{RLMEC} that
incorporates a generative model as the reward model, which is trained by the
erroneous solution rewriting task under the minimum editing constraint, and can
produce token-level rewards for RL training. Based on the generative reward
model, we design the token-level RL objective for training and an
imitation-based regularization for stabilizing RL process. And the both
objectives focus on the learning of the key tokens for the erroneous solution,
reducing the effect of other unimportant tokens. The experiment results on
mathematical tasks and question-answering tasks have demonstrated the
effectiveness of our approach. Our code and data are available at
\url{https://github.com/RUCAIBox/RLMEC}.
- Abstract(参考訳): 強化学習(RL)は、予期せぬアウトプットを防止し、有害性とエラーを減らすために、大規模言語モデルのトレーニングに広く用いられている。
しかし、既存のRLメソッドは、主にインスタンスレベルの報酬を採用しており、複雑な推論タスクのきめ細かい監督を提供することができず、不正につながるいくつかのキートークンに集中できない。
そこで本研究では,生成モデルを報酬モデルとして組み込んだ新しいRL手法を提案する。これは,最小編集制約下での誤解書き換えタスクによってトレーニングされ,RLトレーニングのためのトークンレベル報酬を生成することができる。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
両方の目的は、誤った解に対するキートークンの学習に集中し、他の重要でないトークンの影響を減らします。
数学的タスクと質問応答タスクの実験結果から,本手法の有効性が示された。
私たちのコードとデータは、 \url{https://github.com/RUCAIBox/RLMEC}で利用可能です。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning [18.60627708199452]
オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用について検討する。
本稿ではまず,VLMをRLタスクの報酬として適用する際の報酬ミスアライメントの問題を同定する。
ファジィVLM報酬支援RL(FuRL)という軽量微調整法を導入する。
論文 参考訳(メタデータ) (2024-06-02T07:20:08Z) - Countering Reward Over-optimization in LLM with Demonstration-Guided Reinforcement Learning [49.87923965553233]
強化学習は、大きな言語モデルで過度に最適化される。
報酬目的を再検討するために、Reward from Demonstration (RCfD)を導入する。
RCfD は ROO を緩和しながら, 注意深く調整されたベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-30T09:57:21Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Is RLHF More Difficult than Standard RL? [31.972393805014903]
ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
理論的には、幅広い選好モデルに対して、我々は、報酬に基づくRLのアルゴリズムと技法を直接的に解き、少ないか、余分なコストで解決できることを証明している。
論文 参考訳(メタデータ) (2023-06-25T03:18:15Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。