論文の概要: Personalization for Web-based Services using Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.05612v1
- Date: Wed, 10 Feb 2021 18:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 02:45:40.278004
- Title: Personalization for Web-based Services using Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習によるwebサービスのパーソナライズ
- Authors: Pavlos Athanasios Apostolopoulos, Zehui Wang, Hanson Wang, Chad Zhou,
Kittipat Virochsiri, Norm Zhou, Igor L. Markov
- Abstract要約: モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。
メジャーなソーシャルネットワークにおけるユーザ認証のためのプロダクションシステムにデプロイされ、長期的な目的を著しく改善する。
- 参考スコア(独自算出の注目度): 2.162780715713874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Web-based services present opportunities for improving UI
policies based on observed user interactions. We address challenges of learning
such policies through model-free offline Reinforcement Learning (RL) with
off-policy training. Deployed in a production system for user authentication in
a major social network, it significantly improves long-term objectives. We
articulate practical challenges, compare several ML techniques, provide
insights on training and evaluation of RL models, and discuss generalizations.
- Abstract(参考訳): 大規模Webベースのサービスは、観察されたユーザインタラクションに基づいてUIポリシーを改善する機会を提供する。
モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。
メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。
実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。
関連論文リスト
- Benchmarking Robustness of Deep Reinforcement Learning approaches to
Online Portfolio Management [0.0]
ポートフォリオ管理のための従来のDRLアルゴリズムの性能を評価するためのトレーニングおよび評価プロセスを提案する。
その結果、ほとんどのディープ強化学習アルゴリズムは堅牢ではなく、バックテスト中の戦略の一般化が不十分で、急速に劣化していることがわかった。
論文 参考訳(メタデータ) (2023-06-19T14:09:56Z) - Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [55.47037858773641]
本稿では,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,E2Oは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Collaborative World Models: An Online-Offline Transfer RL Approach [112.60772190302507]
オフライン環境下での視覚的RLの性能を向上させるために,コラボレーティブ・ワールド・モデル(CoWorld)と呼ばれる伝達学習手法を提案する。
実験によると、CoWorldはDeepMind ControlとMeta-Worldのオフライン視覚制御タスクにおいて、既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Sparsity-aware neural user behavior modeling in online interaction
platforms [2.4036844268502766]
ユーザ行動モデリングのための一般化可能なニューラル表現学習フレームワークを開発する。
問題設定は、トランスダクティブおよびインダクティブな学習シナリオにまたがる。
ユーザの振る舞いを反映した情報のさまざまな側面を活用して、大規模にパーソナライズされた推論を可能にする。
論文 参考訳(メタデータ) (2022-02-28T00:27:11Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Recursive Least-Squares Estimator-Aided Online Learning for Visual
Tracking [58.14267480293575]
オフライン学習を必要とせず、簡単な効果的なオンライン学習手法を提案する。
これは、モデルが以前見たオブジェクトに関する知識を記憶するための、内蔵されたメモリ保持メカニズムを可能にする。
我々は、RT-MDNetにおける多層パーセプトロンと、DiMPにおける畳み込みニューラルネットワークの追跡のためのオンライン学習ファミリーにおける2つのネットワークに基づくアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-28T06:51:18Z) - Improved Context-Based Offline Meta-RL with Attention and Contrastive
Learning [1.3106063755117399]
SOTA OMRLアルゴリズムの1つであるFOCALを、タスク内注意メカニズムとタスク間コントラスト学習目標を組み込むことで改善します。
理論解析と実験を行い、エンドツーエンドおよびモデルフリーの優れた性能、効率、堅牢性を実証します。
論文 参考訳(メタデータ) (2021-02-22T05:05:16Z) - Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文 参考訳(メタデータ) (2020-12-09T15:23:53Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。