論文の概要: Towards Validating Long-Term User Feedbacks in Interactive
Recommendation Systems
- arxiv url: http://arxiv.org/abs/2308.11137v1
- Date: Tue, 22 Aug 2023 02:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 13:56:19.602347
- Title: Towards Validating Long-Term User Feedbacks in Interactive
Recommendation Systems
- Title(参考訳): インタラクティブレコメンデーションシステムにおける長期ユーザフィードバックの検証
- Authors: Hojoon Lee, Dongyoon Hwang, Kyushik Min, Jaegul Choo
- Abstract要約: 対話型レコメンダシステム(IRS)は,ユーザとレコメンダシステム間の対話的プロセスをモデル化する能力から,多くの注目を集めている。
レビューデータセットを用いてIRSの実験を再考し、RLベースのモデルと単純な報酬モデルを比較した。
- 参考スコア(独自算出の注目度): 36.45966630580796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Recommender Systems (IRSs) have attracted a lot of attention, due
to their ability to model interactive processes between users and recommender
systems. Numerous approaches have adopted Reinforcement Learning (RL)
algorithms, as these can directly maximize users' cumulative rewards. In IRS,
researchers commonly utilize publicly available review datasets to compare and
evaluate algorithms. However, user feedback provided in public datasets merely
includes instant responses (e.g., a rating), with no inclusion of delayed
responses (e.g., the dwell time and the lifetime value). Thus, the question
remains whether these review datasets are an appropriate choice to evaluate the
long-term effects of the IRS. In this work, we revisited experiments on IRS
with review datasets and compared RL-based models with a simple reward model
that greedily recommends the item with the highest one-step reward. Following
extensive analysis, we can reveal three main findings: First, a simple greedy
reward model consistently outperforms RL-based models in maximizing cumulative
rewards. Second, applying higher weighting to long-term rewards leads to a
degradation of recommendation performance. Third, user feedbacks have mere
long-term effects on the benchmark datasets. Based on our findings, we conclude
that a dataset has to be carefully verified and that a simple greedy baseline
should be included for a proper evaluation of RL-based IRS approaches.
- Abstract(参考訳): 対話型レコメンダシステム(IRS)は,ユーザとレコメンダシステム間の対話的プロセスをモデル化する能力から,多くの注目を集めている。
多数のアプローチが強化学習(RL)アルゴリズムを採用しており、ユーザの累積報酬を直接最大化することができる。
IRSでは、研究者は一般に利用可能なレビューデータセットを使用してアルゴリズムを比較し、評価する。
しかしながら、公開データセットで提供されるユーザフィードバックには、遅延応答(例えば、寿命と居住時間)を含まない、即時応答(例えば、レーティング)のみが含まれる。
したがって、これらのレビューデータセットがIRSの長期的影響を評価する適切な選択であるかどうかについては疑問が残る。
本研究では,IRS実験をレビューデータセットで再検討し,RLモデルと単純な報酬モデルとの比較を行った。
まず、単純なグリーディ報酬モデルが、累積報酬を最大化するためにRLベースのモデルより一貫して優れていることを明らかにする。
第二に、長期的な報酬により高い重み付けを適用すると、推奨性能が低下する。
第3に、ユーザからのフィードバックは、ベンチマークデータセットに長く影響します。
以上の結果から,RLベースのIRSアプローチを適切に評価するには,データセットを慎重に検証し,簡単なグリーディベースラインを含める必要があると結論付けた。
関連論文リスト
- RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - EASRec: Elastic Architecture Search for Efficient Long-term Sequential
Recommender Systems [82.76483989905961]
現在のSRS(Sequential Recommender Systems)は、計算とリソースの非効率に悩まされている。
我々は、効率的な長期シーケンスレコメンダシステム(EASRec)のための弾性アーキテクチャー探索を開発する。
EASRecは、入力データバッチから履歴情報を活用するデータ認識ゲートを導入し、レコメンデーションネットワークの性能を改善する。
論文 参考訳(メタデータ) (2024-02-01T07:22:52Z) - Model-enhanced Contrastive Reinforcement Learning for Sequential
Recommendation [28.218427886174506]
モデル強化コントラスト強化学習(MCRL)という新しいRLレコメンデータを提案する。
一方、ユーザの長期エンゲージメントを推定するためのバリュー関数と、過大評価問題を緩和するための保守的なバリュー学習機構を学習する。
実験により,提案手法は既存のオフラインRL法と自己教師付きRL法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-25T11:43:29Z) - Model-free Reinforcement Learning with Stochastic Reward Stabilization
for Recommender Systems [20.395091290715502]
あるユーザの異なる時間における同じ項目に対するフィードバックはランダムである。
直接フィードバックを教師付きモデルで学んだものと置き換える2つの報酬安定化フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-25T08:42:45Z) - Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。
これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Knowledge Graph-enhanced Sampling for Conversational Recommender System [20.985222879085832]
Conversational Recommendation System (CRS) は対話システムの対話形式を用いて従来のレコメンデーションシステムの問題を解決する。
本研究は,知識グラフ強調サンプリング(KGenSam)と呼ばれる,CRSに適した文脈情報強調モデルを提案する。
ユーザ嗜好を得るための不確実性の高いファジィサンプルと、リコメンデータを更新するための信頼性の高い負サンプルをサンプリングすることにより、2つのサンプルが知識を高めるように設計されている。
論文 参考訳(メタデータ) (2021-10-13T11:00:50Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。