論文の概要: Interactive Search Based on Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2012.06052v1
- Date: Wed, 9 Dec 2020 15:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 08:41:21.494068
- Title: Interactive Search Based on Deep Reinforcement Learning
- Title(参考訳): 深層強化学習に基づく対話型検索
- Authors: Yang Yu, Zhenhao Gu, Rong Tao, Jingtian Ge, Kenglun Chang
- Abstract要約: このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
- 参考スコア(独自算出の注目度): 4.353144350714567
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: With the continuous development of machine learning technology, major
e-commerce platforms have launched recommendation systems based on it to serve
a large number of customers with different needs more efficiently. Compared
with traditional supervised learning, reinforcement learning can better capture
the user's state transition in the decision-making process, and consider a
series of user actions, not just the static characteristics of the user at a
certain moment. In theory, it will have a long-term perspective, producing a
more effective recommendation. The special requirements of reinforcement
learning for data make it need to rely on an offline virtual system for
training. Our project mainly establishes a virtual user environment for offline
training. At the same time, we tried to improve a reinforcement learning
algorithm based on bi-clustering to expand the action space and recommended
path space of the recommendation agent.
- Abstract(参考訳): 機械学習技術の継続的な開発により、主要なEコマースプラットフォームは、異なるニーズを持つ多数の顧客により効率的にサービスを提供するために、それに基づくレコメンデーションシステムを立ち上げた。
従来の教師付き学習と比較して、強化学習は意思決定プロセスにおけるユーザの状態遷移をよりよく捉え、ある時点におけるユーザの静的な特性だけでなく、一連のユーザアクションを考えることができる。
理論的には、長期的な視点を持ち、より効果的なレコメンデーションを生み出す。
データに対する強化学習の特別な要件は、トレーニングのためにオフラインの仮想システムに依存する必要がある。
本プロジェクトは,主にオフライントレーニングのための仮想ユーザ環境を構築している。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
関連論文リスト
- On the Opportunities and Challenges of Offline Reinforcement Learning
for Recommender Systems [36.608400817940236]
強化学習は、推薦システム内の動的なユーザ興味をモデリングするための強力なツールである。
オフライン強化学習における最近の進歩は、新しい視点を示している。
急成長している分野であるにもかかわらず、オフラインの強化学習を利用したレコメンデーションシステムを中心とした作業は依然として限られている。
論文 参考訳(メタデータ) (2023-08-22T10:28:02Z) - Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems [13.705147776518421]
最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。
ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T17:46:14Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Incremental Learning for Personalized Recommender Systems [8.020546404087922]
トレーニング効率とモデル品質の両方を提供するために,インクリメンタルな学習ソリューションを提案する。
このソリューションはLinkedInにデプロイされ、産業規模のレコメンデーションシステムに直接適用される。
論文 参考訳(メタデータ) (2021-08-13T04:21:21Z) - Offline Preference-Based Apprenticeship Learning [11.21888613165599]
我々は、オフラインデータセットを使用して、自律システムが人間から学び、適応し、協力しようとするときに直面する2つの課題に対処する方法について研究する。
まず、オフラインデータセットを使用して、プールベースのアクティブな嗜好学習を通じて、人間の報酬関数を効率的に推測する。
第2に、この学習報酬関数から、推定された人間の意図に基づいてポリシーを最適化するオフライン強化学習を行う。
論文 参考訳(メタデータ) (2021-07-20T04:15:52Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Rethinking Supervised Learning and Reinforcement Learning in
Task-Oriented Dialogue Systems [58.724629408229205]
本稿では、従来の教師あり学習とシミュレータなしの逆学習法を用いて、最先端のRL法に匹敵する性能を実現する方法を示す。
我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。
論文 参考訳(メタデータ) (2020-09-21T12:04:18Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z) - Knowledge-guided Deep Reinforcement Learning for Interactive
Recommendation [49.32287384774351]
インタラクティブレコメンデーションは、アイテムとユーザ間の動的インタラクションから学び、応答性と精度を達成することを目的としている。
本稿では,知識指導型深層強化学習を提案する。
論文 参考訳(メタデータ) (2020-04-17T05:26:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。