論文の概要: Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation
- arxiv url: http://arxiv.org/abs/2409.07416v1
- Date: Wed, 11 Sep 2024 17:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.300709
- Title: Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation
- Title(参考訳): リストワイズ・レコメンデーションの時間的抽象化のための階層的強化学習
- Authors: Luo Ji, Gao Liu, Mingyang Yin, Hongxia Yang, Jingren Zhou,
- Abstract要約: 我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
- 参考スコア(独自算出の注目度): 51.06031200728449
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern listwise recommendation systems need to consider both long-term user perceptions and short-term interest shifts. Reinforcement learning can be applied on recommendation to study such a problem but is also subject to large search space, sparse user feedback and long interactive latency. Motivated by recent progress in hierarchical reinforcement learning, we propose a novel framework called mccHRL to provide different levels of temporal abstraction on listwise recommendation. Within the hierarchical framework, the high-level agent studies the evolution of user perception, while the low-level agent produces the item selection policy by modeling the process as a sequential decision-making problem. We argue that such framework has a well-defined decomposition of the outra-session context and the intra-session context, which are encoded by the high-level and low-level agents, respectively. To verify this argument, we implement both a simulator-based environment and an industrial dataset-based experiment. Results observe significant performance improvement by our method, compared with several well-known baselines. Data and codes have been made public.
- Abstract(参考訳): 現代のリストワイズレコメンデーションシステムは、長期的なユーザ認識と短期的な関心の変化の両方を考慮する必要がある。
強化学習はそのような問題を研究するための推薦にも適用できるが、大きな検索スペース、少ないユーザフィードバック、長時間の対話的レイテンシにも適用できる。
近年の階層的強化学習の進展により,リストワイド・レコメンデーションにおいて時間的抽象化のレベルが異なる mccHRL という新しいフレームワークが提案されている。
階層的な枠組みの中では、ハイレベルエージェントはユーザの知覚の進化を研究し、低レベルエージェントは、プロセスをシーケンシャルな意思決定問題としてモデル化することでアイテム選択ポリシーを生成する。
このようなフレームワークは,高レベルエージェントと低レベルエージェントがそれぞれ符号化した,アウトラ・セッションコンテキストとイントラ・セッションコンテキストの明確に定義された分解を持っている,と我々は主張する。
この議論を検証するため、シミュレーターベース環境と産業用データセットベース実験の両方を実装した。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
データとコードは公開されています。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Topic-Controllable Summarization: Topic-Aware Evaluation and Transformer Methods [4.211128681972148]
Topic-controllable summarization(トピック制御可能な要約)は、幅広い潜在的応用を持つ新興の研究分野である。
本研究は,生成した要約を自動的に評価する話題指向評価尺度を提案する。
さらに,強力なトランスフォーマーアーキテクチャを扱うためにトピック埋め込みを適用し,制御トークンによる要約生成を導くための,新しい,効率的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-06-09T07:28:16Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。