論文の概要: An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders
- arxiv url: http://arxiv.org/abs/2408.16032v1
- Date: Wed, 28 Aug 2024 10:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 17:54:29.796270
- Title: An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders
- Title(参考訳): LLMを用いたレコメンダ用極端データ効率・生成型強化学習エージェント
- Authors: Shuang Feng, Grace Feng,
- Abstract要約: 強化学習(RL)アルゴリズムは、長期顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的、筋電図的目標を回避するために有効である。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
- 参考スコア(独自算出の注目度): 1.0154385852423122
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements in large language models (LLMs) have enabled understanding webpage contexts, product details, and human instructions. Utilizing LLMs as the foundational architecture for either reward models or policies in reinforcement learning has gained popularity -- a notable achievement is the success of InstructGPT. RL algorithms have been instrumental in maximizing long-term customer satisfaction and avoiding short-term, myopic goals in industrial recommender systems, which often rely on deep learning models to predict immediate clicks or purchases. In this project, several RL methods are implemented and evaluated using the WebShop benchmark environment, data, simulator, and pre-trained model checkpoints. The goal is to train an RL agent to maximize the purchase reward given a detailed human instruction describing a desired product. The RL agents are developed by fine-tuning a pre-trained BERT model with various objectives, learning from preferences without a reward model, and employing contemporary training techniques such as Proximal Policy Optimization (PPO) as used in InstructGPT, and Direct Preference Optimization (DPO). This report also evaluates the RL agents trained using generative trajectories. Evaluations were conducted using Thompson sampling in the WebShop simulator environment. The simulated online experiments demonstrate that agents trained on generated trajectories exhibited comparable task performance to those trained using human trajectories. This has demonstrated an example of an extremely low-cost data-efficient way of training reinforcement learning agents. Also, with limited training time (<2hours), without utilizing any images, a DPO agent achieved a 19% success rate after approximately 3000 steps or 30 minutes of training on T4 GPUs, compared to a PPO agent, which reached a 15% success rate.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、Webページのコンテキスト、製品の詳細、人間の指示を理解することが可能になった。
LLMを報酬モデルまたは強化学習におけるポリシーの基礎的アーキテクチャとして活用することは、人気を集めており、注目すべき成果は、InstructGPTの成功である。
RLアルゴリズムは、長期の顧客満足度を最大化し、産業レコメンデーションシステムにおける短期的な、ミオピックな目標を避けるために有効である。
本稿では,WebShopベンチマーク環境,データ,シミュレータ,事前学習したモデルチェックポイントを用いて,いくつかのRL手法を実装し,評価する。
目標は、RLエージェントをトレーニングして購入報酬を最大化することである。
RLエージェントは、トレーニング済みのBERTモデルを様々な目的に微調整し、報酬モデルなしで好みから学習し、InstructGPTで使用されるPPO(Pximal Policy Optimization)やDPO(Direct Preference Optimization)といった現代的トレーニング技術を用いて開発されている。
本報告では, 生成的軌跡を用いて訓練したRL剤についても検討した。
WebShopシミュレータ環境におけるトンプソンサンプリングによる評価を行った。
シミュレーションされたオンライン実験では、生成された軌道で訓練されたエージェントが、人間の軌道で訓練されたエージェントと同等のタスク性能を示した。
このことは、非常に低コストでデータ効率のよい強化学習エージェントの訓練方法の例を示している。
また、トレーニング時間(2時間)に制限があるため、DPOエージェントは、T4 GPUで約3000ステップまたは30分トレーニングした後、15%の成功率に達したPPOエージェントと比較して19%の成功率を達成した。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Simulation-Based Benchmarking of Reinforcement Learning Agents for Personalized Retail Promotions [17.0313335845013]
本稿では,RLエージェントのベンチマークを目的としたショッピング行動の包括的シミュレーションについて述べる。
私たちは、顧客購入履歴を要約したオフラインバッチデータを使用してエージェントを訓練し、この効果を緩和しました。
実験の結果,スパース報酬分布に過度に適合しない文脈的帯域幅と深部RL法は,静的ポリシーよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-05-16T23:27:21Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。