論文の概要: Maximum-Entropy Regularized Decision Transformer with Reward Relabelling for Dynamic Recommendation
- arxiv url: http://arxiv.org/abs/2406.00725v1
- Date: Sun, 02 Jun 2024 12:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 23:05:27.293935
- Title: Maximum-Entropy Regularized Decision Transformer with Reward Relabelling for Dynamic Recommendation
- Title(参考訳): 動的レコメンデーションのためのリワード型最大エントロピー正規化変圧器
- Authors: Xiaocong Chen, Siyu Wang, Lina Yao,
- Abstract要約: オフラインRLRS (EDT4Rec) のためのリワードラベル付き最大エントロピー拡張決定変換器 (Max-Entropy enhanced Decision Transformer) という新しい手法を提案する。
我々のアプローチは、最大エントロピー視点から始まり、最大エントロピー強化探査戦略の開発に繋がる。
モデルが準最適軌道を縫合する能力を増大させるため,一意の報酬緩和手法を取り入れた。
- 参考スコア(独自算出の注目度): 17.750449033873036
- License:
- Abstract: Reinforcement learning-based recommender systems have recently gained popularity. However, due to the typical limitations of simulation environments (e.g., data inefficiency), most of the work cannot be broadly applied in all domains. To counter these challenges, recent advancements have leveraged offline reinforcement learning methods, notable for their data-driven approach utilizing offline datasets. A prominent example of this is the Decision Transformer. Despite its popularity, the Decision Transformer approach has inherent drawbacks, particularly evident in recommendation methods based on it. This paper identifies two key shortcomings in existing Decision Transformer-based methods: a lack of stitching capability and limited effectiveness in online adoption. In response, we introduce a novel methodology named Max-Entropy enhanced Decision Transformer with Reward Relabeling for Offline RLRS (EDT4Rec). Our approach begins with a max entropy perspective, leading to the development of a max entropy enhanced exploration strategy. This strategy is designed to facilitate more effective exploration in online environments. Additionally, to augment the model's capability to stitch sub-optimal trajectories, we incorporate a unique reward relabeling technique. To validate the effectiveness and superiority of EDT4Rec, we have conducted comprehensive experiments across six real-world offline datasets and in an online simulator.
- Abstract(参考訳): 強化学習に基づくレコメンデーションシステムは近年人気を集めている。
しかし、シミュレーション環境の典型的な制限(例えば、データ非効率性)のため、ほとんどの作業はすべての領域で広く適用できない。
これらの課題に対処するため、最近の進歩はオフラインデータセットを利用したデータ駆動アプローチで注目されるオフライン強化学習手法を活用している。
この顕著な例は、決定変換器である。
その人気にもかかわらず、決定トランスフォーマーアプローチには固有の欠点があり、特にそれに基づいたレコメンデーション手法では顕著である。
本稿では,既存のDecision Transformerベースの手法において,縫合能力の欠如とオンライン適用の限界という2つの欠点について述べる。
そこで本研究では,オフラインRLRS (EDT4Rec) のためのリワードリラベルを用いた Max-Entropy enhanced Decision Transformer という新しい手法を提案する。
我々のアプローチは、最大エントロピー視点から始まり、最大エントロピー強化探査戦略の開発に繋がる。
この戦略は、オンライン環境におけるより効果的な探索を容易にするように設計されている。
さらに, モデルが準最適軌道を縫合する能力を増強するために, 独自の報酬緩和手法を取り入れた。
EDT4Recの有効性と優位性を検証するため、6つの実世界のオフラインデータセットとオンラインシミュレータを用いて総合的な実験を行った。
関連論文リスト
- Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers [111.78179839856293]
オフライン強化学習(RL)のための魅力的なパラダイムとして、決定変換器が登場している。
オンラインの意思決定の微調整は驚くほど過小評価されている。
ODTの微調整プロセスにTD3勾配を加えるだけで、ODTのオンライン微調整性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-31T16:38:51Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Sample-efficient Imitative Multi-token Decision Transformer for Real-world Driving [18.34685506480288]
我々はSimDT(SimDT)を提案する。
SimDTでは、マルチトークン予測、オンライン模倣学習パイプライン、シーケンスモデリング強化学習への優先的なエクスペリエンスリプレイが導入されている。
結果は、Waymaxベンチマークのオープンループとクローズループ設定の両方で、人気のある模倣と強化学習アルゴリズムを上回る。
論文 参考訳(メタデータ) (2024-06-18T14:27:14Z) - Retentive Decision Transformer with Adaptive Masking for Reinforcement Learning based Recommendation Systems [17.750449033873036]
Reinforcement Learning-based Recommender Systems (RLRS) は、様々なアプリケーションで約束されている。
しかし彼らは、特に報酬関数の作成や、既存の大規模なデータセットの活用など、課題に悩まされている。
オフラインRLRSの最近の進歩は、これらの2つの課題に対処するためのソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-26T12:08:58Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Causal Decision Transformer for Recommender Systems via Offline
Reinforcement Learning [23.638418776700522]
我々は、リコメンデータシステムのための因果決定変換器(CDT4Rec)という新しいモデルを提案する。
CDT4Recはオフラインの強化学習システムで、オンラインインタラクションではなくデータセットから学習することができる。
本モデルの有効性と優位性を示すため、6つの実世界のオフラインデータセットと1つのオンラインシミュレータの実験を行った。
論文 参考訳(メタデータ) (2023-04-17T00:05:52Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。