論文の概要: Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF
- arxiv url: http://arxiv.org/abs/2410.04612v1
- Date: Sun, 6 Oct 2024 20:20:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:26:32.368307
- Title: Regressing the Relative Future: Efficient Policy Optimization for Multi-turn RLHF
- Title(参考訳): 相対的未来を推し進める:マルチターンRLHFの効率的な政策最適化
- Authors: Zhaolin Gao, Wenhao Zhan, Jonathan D. Chang, Gokul Swamy, Kianté Brantley, Jason D. Lee, Wen Sun,
- Abstract要約: 大規模言語モデル(LLM)におけるマルチターンRLHFに対応するために,Regressing the RELative Future(REFUEL)を導入する。
REFUELは、反復的に収集されたデータセット上の回帰タスクのシーケンスとして、マルチターンRLHF問題をフレーム化している。
我々はLlama-3.1-70B-itを用いて,モデルとの対話においてユーザをシミュレートするアルゴリズムを評価する。
- 参考スコア(独自算出の注目度): 47.19899163378932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success at tasks like summarization that involve a single turn of interaction. However, they can still struggle with multi-turn tasks like dialogue that require long-term planning. Previous works on multi-turn dialogue extend single-turn reinforcement learning from human feedback (RLHF) methods to the multi-turn setting by treating all prior dialogue turns as a long context. Such approaches suffer from covariate shift: the conversations in the training set have previous turns generated by some reference policy, which means that low training error may not necessarily correspond to good performance when the learner is actually in the conversation loop. In response, we introduce REgressing the RELative FUture (REFUEL), an efficient policy optimization approach designed to address multi-turn RLHF in LLMs. REFUEL employs a single model to estimate $Q$-values and trains on self-generated data, addressing the covariate shift issue. REFUEL frames the multi-turn RLHF problem as a sequence of regression tasks on iteratively collected datasets, enabling ease of implementation. Theoretically, we prove that REFUEL can match the performance of any policy covered by the training set. Empirically, we evaluate our algorithm by using Llama-3.1-70B-it to simulate a user in conversation with our model. REFUEL consistently outperforms state-of-the-art methods such as DPO and REBEL across various settings. Furthermore, despite having only 8 billion parameters, Llama-3-8B-it fine-tuned with REFUEL outperforms Llama-3.1-70B-it on long multi-turn dialogues. Implementation of REFUEL can be found at https://github.com/ZhaolinGao/REFUEL/, and models trained by REFUEL can be found at https://huggingface.co/Cornell-AGI.
- Abstract(参考訳): 大きな言語モデル(LLM)は、1ターンのインタラクションを含む要約のようなタスクで顕著に成功しました。
しかし、長期的な計画を必要とする対話のようなマルチターンタスクには、依然として苦労する可能性がある。
マルチターン対話における従来の研究は、人間からのフィードバック(RLHF)法から、全ての先行対話のターンを長いコンテキストとして扱うことで、マルチターン設定へのシングルターン強化学習を拡張している。
トレーニングセット内の会話は、何らかの参照ポリシーによって以前のターンが生成されるため、学習者が実際に会話ループにいる場合、低いトレーニングエラーが必ずしも良いパフォーマンスに対応しない可能性がある。
これに対して,LLMにおけるマルチターンRLHFに対処する効率的なポリシー最適化手法であるRegressing the RELative Future (REFUEL)を提案する。
REFUELは1つのモデルを用いて$Q$-valueを推定し、自己生成データでトレーニングし、共変量シフトの問題に対処する。
REFUELは、反復的に収集されたデータセット上の回帰タスクのシーケンスとして、マルチターンRLHF問題をフレーム化して実装を容易にする。
理論的には、REFUELはトレーニングセットによってカバーされる任意のポリシーのパフォーマンスに一致できることを証明します。
実験では,Llama-3.1-70B-itを用いて,モデルと対話するユーザのシミュレーションを行った。
REFUELは、DPOやREBELといった最先端の手法を様々な設定で一貫して上回っている。
さらに、わずか80億のパラメータを持つにもかかわらず、REFUELで微調整されたLlama-3-8B-itは、長いマルチターン対話においてLlama-3.1-70B-itより優れている。
REFUELの実装はhttps://github.com/ZhaolinGao/REFUEL/で、REFUELでトレーニングされたモデルはhttps://huggingface.co/Cornell-AGIで見ることができる。
関連論文リスト
- Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models [11.624678008637623]
RLHFにおける生成と学習の分離を提案する。
非同期トレーニングは、オンラインだが非政治的なRLHFという未調査の制度に依存している。
非同期RLHFのさらなる計算最適化について検討するが、性能上のコストがかかることがわかった。
論文 参考訳(メタデータ) (2024-10-23T19:59:50Z) - MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions [46.608747360764035]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)と人間の嗜好の整合性を示す。
トークンのシーケンスや高レベルの言語構造を含むマクロアクションを学習プロセスに組み込んだ,シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。
提案手法は,テキスト要約,対話生成,質問応答,プログラム合成など,様々なモデルサイズやタスクにまたがる広範な実験を通じて検証される。
論文 参考訳(メタデータ) (2024-10-03T17:55:13Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Sample Efficient Reinforcement Learning from Human Feedback via Active
Exploration [29.935758027209292]
予測に基づくフィードバックは、強化学習における多くのアプリケーションにとって重要である。
本研究は,人間のフィードバックを得るために文脈を選択することができるという事実を生かしている。
提案手法は,複数のベースラインよりも人間の好みのサンプルが少ない場合に,より優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。