Fugu-MT 論文翻訳(概要): Generative Slate Recommendation with Reinforcement Learning

論文の概要: Generative Slate Recommendation with Reinforcement Learning

arxiv url: http://arxiv.org/abs/2301.08632v2
Date: Tue, 24 Jan 2023 10:29:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-25 15:14:21.152497
Title: Generative Slate Recommendation with Reinforcement Learning
Title（参考訳）: 強化学習による生成スレート勧告
Authors: Romain Deffayet, Thibaut Thonet, Jean-Michel Renders, Maarten de Rijke
Abstract要約: 強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
参考スコア（独自算出の注目度）: 49.75985313698214
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recent research has employed reinforcement learning (RL) algorithms to optimize long-term user engagement in recommender systems, thereby avoiding common pitfalls such as user boredom and filter bubbles. They capture the sequential and interactive nature of recommendations, and thus offer a principled way to deal with long-term rewards and avoid myopic behaviors. However, RL approaches are intractable in the slate recommendation scenario - where a list of items is recommended at each interaction turn - due to the combinatorial action space. In that setting, an action corresponds to a slate that may contain any combination of items. While previous work has proposed well-chosen decompositions of actions so as to ensure tractability, these rely on restrictive and sometimes unrealistic assumptions. Instead, in this work we propose to encode slates in a continuous, low-dimensional latent space learned by a variational auto-encoder. Then, the RL agent selects continuous actions in this latent space, which are ultimately decoded into the corresponding slates. By doing so, we are able to (i) relax assumptions required by previous work, and (ii) improve the quality of the action selection by modeling full slates instead of independent items, in particular by enabling diversity. Our experiments performed on a wide array of simulated environments confirm the effectiveness of our generative modeling of slates over baselines in practical scenarios where the restrictive assumptions underlying the baselines are lifted. Our findings suggest that representation learning using generative models is a promising direction towards generalizable RL-based slate recommendation.
Abstract（参考訳）: 最近の研究では、レコメンダシステムにおける長期ユーザエンゲージメントを最適化するために強化学習(rl)アルゴリズムを採用しており、ユーザの退屈さやフィルターバブルのような一般的な落とし穴を回避している。彼らはレコメンデーションのシーケンシャルでインタラクティブな性質を捉え、長期的な報酬に対処し、筋電図的行動を避けるための原則的な方法を提供する。しかしながら、RLアプローチは、組み合わせアクション空間のため、各相互作用ターンで項目のリストが推奨されるスレートレコメンデーションシナリオにおいて、難解である。この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。従来の研究では、トラクタビリティを確保するためにアクションを適切に分解することを提案したが、これらは制限的、時には非現実的な仮定に依存している。そこで本研究では,変分オートエンコーダによって学習される連続的で低次元な潜在空間にスレートを符号化する手法を提案する。そして、RLエージェントは、この潜伏空間における連続的な作用を選択し、最終的に対応するスレートにデコードされる。そうすることで私たちは (i)前回の作業に必要な仮定を緩和し、 (二)独立した項目の代わりにフルスレートをモデル化することにより行動選択の質を向上させる。シミュレーション環境で行った実験では,ベースラインの基礎となる制約的な仮定が解除された場合のベースラインに対するスレート生成モデルの有効性を確認した。以上より,生成モデルを用いた表現学習は,一般化された rl ベーススレートレコメンデーションへの有望な方向であることが示唆された。

関連論文リスト

$\ ext{R}^2\ ext{ec}$: Towards Large Recommender Models with Reasoning [50.291998724376654]
我々は,本質的な推論機能を備えた統合された大規模レコメンデータモデルであるnameを提案する。 RecPOは、単一のポリシー更新で推論とレコメンデーションの両方の機能を同時に最適化する、対応する強化学習フレームワークである。さまざまなベースラインを持つ3つのデータセットの実験では、Hit@5で68.67%、NDCG@20で45.21%の相対的な改善が見られた。
論文参考訳（メタデータ） (2025-05-22T17:55:43Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Large Language Model Empowered Recommendation Meets All-domain Continual Pre-Training [60.38082979765664]
CPRecは、レコメンデーションのための全ドメイン連続事前トレーニングフレームワークである。 LLMを連続的な事前学習パラダイムを通じて、普遍的なユーザ行動と整合させる。 2つの異なるプラットフォームから5つの実世界のデータセットを実験する。
論文参考訳（メタデータ） (2025-04-11T20:01:25Z)
Think Before Recommend: Unleashing the Latent Reasoning Power for Sequential Recommendation [20.965068290049057]
提案するTextbfReaRecは,レコメンデータシステムのための最初の推論時間計算フレームワークである。 ReaRecはシーケンスの最後の隠された状態をシーケンシャルレコメンデータに自動的にフィードする。本稿では2つの軽量推論に基づく学習手法,ERL(Ensemble Reasoning Learning)とPRL(Progressive Reasoning Learning)を紹介する。
論文参考訳（メタデータ） (2025-03-28T17:59:03Z)
Causality-Enhanced Behavior Sequence Modeling in LLMs for Personalized Recommendation [47.29682938439268]
本稿では,ユーザ嗜好モデルを改善するために,CFT法を提案する。モデル出力に対する行動系列の因果的影響を特定するために, 反ファクト推論を用いる。実世界のデータセットの実験により、CFTは行動シーケンスモデリングを効果的に改善することを示した。
論文参考訳（メタデータ） (2024-10-30T08:41:13Z)
An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文参考訳（メタデータ） (2024-08-15T09:26:26Z)
LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。 LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文参考訳（メタデータ） (2024-05-22T10:21:50Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
Contrastive Self-supervised Sequential Recommendation with Robust Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文参考訳（メタデータ） (2021-08-14T07:15:25Z)
Sequence Adaptation via Reinforcement Learning in Recommender Systems [8.909115457491522]
そこで我々は,SARモデルを提案する。SARモデルは,ユーザとイテムの相互作用のシーケンス長をパーソナライズされた方法で調整する。さらに,逐次レコメンデーションの精度を批評家ネットワークの予測累積報酬と整合させるために,共同損失関数を最適化する。実世界の4つのデータセットに対する実験的な評価は,提案モデルがいくつかのベースラインアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2021-07-31T13:56:46Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)
Sequential Recommendation with Self-Attentive Multi-Adversarial Network [101.25533520688654]
逐次レコメンデーションにおける文脈情報の影響を明示的にモデル化するためのMFGAN(Multi-Factor Generative Adversarial Network)を提案する。当社のフレームワークは,複数種類の因子情報を組み込むことが柔軟であり,各因子が推奨決定にどのように貢献するかを時間とともに追跡することができる。
論文参考訳（メタデータ） (2020-05-21T12:28:59Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。