論文の概要: Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation
- arxiv url: http://arxiv.org/abs/2409.07416v1
- Date: Wed, 11 Sep 2024 17:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 13:41:10.300709
- Title: Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation
- Title(参考訳): リストワイズ・レコメンデーションの時間的抽象化のための階層的強化学習
- Authors: Luo Ji, Gao Liu, Mingyang Yin, Hongxia Yang, Jingren Zhou,
- Abstract要約: 我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
- 参考スコア(独自算出の注目度): 51.06031200728449
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern listwise recommendation systems need to consider both long-term user perceptions and short-term interest shifts. Reinforcement learning can be applied on recommendation to study such a problem but is also subject to large search space, sparse user feedback and long interactive latency. Motivated by recent progress in hierarchical reinforcement learning, we propose a novel framework called mccHRL to provide different levels of temporal abstraction on listwise recommendation. Within the hierarchical framework, the high-level agent studies the evolution of user perception, while the low-level agent produces the item selection policy by modeling the process as a sequential decision-making problem. We argue that such framework has a well-defined decomposition of the outra-session context and the intra-session context, which are encoded by the high-level and low-level agents, respectively. To verify this argument, we implement both a simulator-based environment and an industrial dataset-based experiment. Results observe significant performance improvement by our method, compared with several well-known baselines. Data and codes have been made public.
- Abstract(参考訳): 現代のリストワイズレコメンデーションシステムは、長期的なユーザ認識と短期的な関心の変化の両方を考慮する必要がある。
強化学習はそのような問題を研究するための推薦にも適用できるが、大きな検索スペース、少ないユーザフィードバック、長時間の対話的レイテンシにも適用できる。
近年の階層的強化学習の進展により,リストワイド・レコメンデーションにおいて時間的抽象化のレベルが異なる mccHRL という新しいフレームワークが提案されている。
階層的な枠組みの中では、ハイレベルエージェントはユーザの知覚の進化を研究し、低レベルエージェントは、プロセスをシーケンシャルな意思決定問題としてモデル化することでアイテム選択ポリシーを生成する。
このようなフレームワークは,高レベルエージェントと低レベルエージェントがそれぞれ符号化した,アウトラ・セッションコンテキストとイントラ・セッションコンテキストの明確に定義された分解を持っている,と我々は主張する。
この議論を検証するため、シミュレーターベース環境と産業用データセットベース実験の両方を実装した。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
データとコードは公開されています。
関連論文リスト
- Dual Contrastive Transformer for Hierarchical Preference Modeling in Sequential Recommendation [23.055217651991537]
シークエンシャルレコメンダシステム(SRS)は、利用者が興味を持つかもしれない後続の項目を予測することを目的としている。
既存のSRSの多くは、アイテムID情報に基づいて、ユーザによる単一の低レベルの嗜好をモデル化することが多い。
複雑な低レベルおよび高レベルの嗜好ダイナミクスをモデル化する新しい階層的嗜好モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-30T08:09:33Z) - Layer-of-Thoughts Prompting (LoT): Leveraging LLM-Based Retrieval with Constraint Hierarchies [0.3946282433423277]
Layer-of-Thoughts Prompting (LoT)は、制約階層を使用して、所定のクエリに対する候補応答をフィルタリングし、精査する。
LoTは情報検索タスクの精度と理解性を著しく改善する。
論文 参考訳(メタデータ) (2024-10-16T01:20:44Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z) - Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。
当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文 参考訳(メタデータ) (2020-05-21T12:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。