論文の概要: A Text-based Deep Reinforcement Learning Framework for Interactive
Recommendation
- arxiv url: http://arxiv.org/abs/2004.06651v4
- Date: Sun, 26 Jul 2020 13:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 10:17:03.082688
- Title: A Text-based Deep Reinforcement Learning Framework for Interactive
Recommendation
- Title(参考訳): 対話型推薦のためのテキストベース深層強化学習フレームワーク
- Authors: Chaoyang Wang and Zhiqiang Guo and Jianjun Li and Peng Pan and Guohui
Li
- Abstract要約: インタラクティブレコメンデータシステム(IRS)のためのテキストベースのDeep Deterministic Policy Gradient Framework(TDDPG-Rec)を提案する。
具体的には,テキスト情報を利用してアイテムやユーザを特徴空間にマッピングすることで,空間性の問題を大幅に軽減する。
TDDPG-Recは,複数のベースラインに対して,時間効率で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 15.723042747172688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its nature of learning from dynamic interactions and planning for
long-run performance, reinforcement learning (RL) recently has received much
attention in interactive recommender systems (IRSs). IRSs usually face the
large discrete action space problem, which makes most of the existing RL-based
recommendation methods inefficient. Moreover, data sparsity is another
challenging problem that most IRSs are confronted with. While the textual
information like reviews and descriptions is less sensitive to sparsity,
existing RL-based recommendation methods either neglect or are not suitable for
incorporating textual information. To address these two problems, in this
paper, we propose a Text-based Deep Deterministic Policy Gradient framework
(TDDPG-Rec) for IRSs. Specifically, we leverage textual information to map
items and users into a feature space, which greatly alleviates the sparsity
problem. Moreover, we design an effective method to construct an action
candidate set. By the policy vector dynamically learned from TDDPG-Rec that
expresses the user's preference, we can select actions from the candidate set
effectively. Through experiments on three public datasets, we demonstrate that
TDDPG-Rec achieves state-of-the-art performance over several baselines in a
time-efficient manner.
- Abstract(参考訳): 動的相互作用から学習し,長期的パフォーマンスのための計画を立てることの性質から,近年,対話型推薦システム (IRS) において強化学習 (RL) が注目されている。
IRSは通常、大きな離散的なアクション空間問題に直面し、既存のRLベースのレコメンデーション手法のほとんどを非効率にする。
さらに、データスパシティは、ほとんどのIRSが直面している別の難しい問題である。
レビューや記述などのテキスト情報は疎結合に敏感でないが、既存のRLベースのレコメンデーション手法は無視するか、あるいはテキスト情報を組み込むのに適さない。
本稿では、これらの2つの問題に対処するため、IRSのためのテキストベースのDeep Deterministic Policy Gradient framework(TDDPG-Rec)を提案する。
具体的には,テキスト情報を利用してアイテムやユーザを特徴空間にマッピングすることで,空間性の問題を大幅に軽減する。
さらに,アクション候補セットを構築するための効果的な手法を設計する。
ユーザの好みを表すTDDPG-Recから動的に学習したポリシーベクトルにより、候補セットから効果的にアクションを選択することができる。
3つの公開データセットの実験を通じて、TDDPG-Recが複数のベースラインに対して、時間効率で最先端のパフォーマンスを達成することを示す。
関連論文リスト
- DRDT: Dynamic Reflection with Divergent Thinking for LLM-based
Sequential Recommendation [53.62727171363384]
進化的思考を伴う動的反射(Dynamic Reflection with Divergent Thinking)という新しい推論原理を導入する。
我々の方法論はダイナミックリフレクション(動的リフレクション)であり、探索、批評、反射を通じて人間の学習をエミュレートするプロセスである。
6つの事前学習 LLM を用いた3つのデータセットに対するアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-12-18T16:41:22Z) - Representation Learning with Large Language Models for Recommendation [34.46344639742642]
本稿では,大規模言語モデル (LLM) を用いた表現学習によるレコメンデータの強化を目的とした,モデルに依存しないフレームワーク RLMRec を提案する。
RLMRecには補助的なテキスト信号が組み込まれており、LLMが権限を持つユーザ/イテムプロファイリングパラダイムを開発し、LLMの意味空間と協調的関係信号の表現空間を整合させる。
論文 参考訳(メタデータ) (2023-10-24T15:51:13Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - Conversational Recommendation as Retrieval: A Simple, Strong Baseline [4.737923227003888]
会話レコメンデーションシステム(CRS)は,自然言語会話を通じて適切な項目をユーザに推薦することを目的としている。
ほとんどのCRSアプローチは、これらの会話によって提供されるシグナルを効果的に利用しない。
CRS項目推薦タスクに対して、代替情報検索(IR)スタイルのアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-23T06:21:31Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - JDRec: Practical Actor-Critic Framework for Online Combinatorial
Recommender System [0.0]
推薦者システム(CR)は、ユーザ行動がコンテキスト情報とアイテムの両方に影響される結果ページにおいて、ユーザに対してアイテムのリストを出力する。
その重要性にもかかわらず、オンライン環境における効率性、ダイナミクス、パーソナライズ要件のため、実用的なCRシステムを構築することは依然として課題である。
論文 参考訳(メタデータ) (2022-07-27T05:47:12Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Towards Topic-Guided Conversational Recommender System [80.3725246715938]
textbfTG-ReDial(textbfTopic-textbfGuided textbfDialogによるtextbfRecommendation)という新しいCRSデータセットをコントリビュートする。
本稿では,話題誘導型会話レコメンデーションの課題を提示し,この課題に対する効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-08T17:04:30Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。