論文の概要: Personalization for Web-based Services using Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.05612v1
- Date: Wed, 10 Feb 2021 18:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-02-12 02:45:40.278004
- Title: Personalization for Web-based Services using Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習によるwebサービスのパーソナライズ
- Authors: Pavlos Athanasios Apostolopoulos, Zehui Wang, Hanson Wang, Chad Zhou,
Kittipat Virochsiri, Norm Zhou, Igor L. Markov
- Abstract要約: モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。
メジャーなソーシャルネットワークにおけるユーザ認証のためのプロダクションシステムにデプロイされ、長期的な目的を著しく改善する。
- 参考スコア(独自算出の注目度): 2.162780715713874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale Web-based services present opportunities for improving UI
policies based on observed user interactions. We address challenges of learning
such policies through model-free offline Reinforcement Learning (RL) with
off-policy training. Deployed in a production system for user authentication in
a major social network, it significantly improves long-term objectives. We
articulate practical challenges, compare several ML techniques, provide
insights on training and evaluation of RL models, and discuss generalizations.
- Abstract(参考訳): 大規模Webベースのサービスは、観察されたユーザインタラクションに基づいてUIポリシーを改善する機会を提供する。
モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。
メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。
実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。
関連論文リスト
- Optimistic Learning for Communication Networks [16.33529267937042]
本チュートリアルでは,現代通信システムにおける資源管理フレームワークの決定エンジンとして,楽観的な学習(OpL)を提案する。
我々は、OpLの基本概念、アルゴリズムおよび結果を紹介し、この理論のルーツについて議論し、最適化を定義し、達成するための異なるアプローチを示す。
論文 参考訳(メタデータ) (2025-04-04T14:55:27Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Constraining Participation: Affordances of Feedback Features in Interfaces to Large Language Models [49.74265453289855]
大規模言語モデル(LLM)は、コンピュータ、Webブラウザ、ブラウザベースのインターフェースによるインターネット接続を持つ人なら誰でも利用できるようになった。
本稿では,ChatGPTインタフェースにおける対話型フィードバック機能の可能性について検討し,ユーザ入力の形状やイテレーションへの参加について分析する。
論文 参考訳(メタデータ) (2024-08-27T13:50:37Z) - Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。
知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。
Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。
イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文 参考訳(メタデータ) (2024-07-25T07:09:35Z) - SUBER: An RL Environment with Simulated Human Behavior for Recommender Systems [18.716102193517315]
強化学習 (Reinforcement Learning, RL) はレコメンデーションシステムの領域で人気を集めている。
この研究は、RLベースのレコメンデータシステムをトレーニングするためのモジュラーで斬新なフレームワークを導入している。
RL環境を含むソフトウェアはGitHubで公開されている。
論文 参考訳(メタデータ) (2024-06-01T11:56:08Z) - LiMAML: Personalization of Deep Recommender Models via Meta Learning [13.69036196446634]
我々は、個人メンバーや他のエンティティのためのモデルのパーソナライズに適した革新的なメタラーニングソリューションを導入する。
モデル非依存メタラーニング(MAML)アルゴリズムを用いて,最近のユーザインタラクションデータを用いて,タスクごとのサブネットワークを適応する。
私たちのアプローチは、さまざまなLinkedInアプリケーションにまたがる、高度にパーソナライズされたAIモデルのデプロイを可能にしました。
論文 参考訳(メタデータ) (2024-02-23T22:06:36Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Benchmarking Robustness of Deep Reinforcement Learning approaches to
Online Portfolio Management [0.0]
ポートフォリオ管理のための従来のDRLアルゴリズムの性能を評価するためのトレーニングおよび評価プロセスを提案する。
その結果、ほとんどのディープ強化学習アルゴリズムは堅牢ではなく、バックテスト中の戦略の一般化が不十分で、急速に劣化していることがわかった。
論文 参考訳(メタデータ) (2023-06-19T14:09:56Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user
Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。
ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。
我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文 参考訳(メタデータ) (2022-02-21T21:50:50Z) - Interactive Search Based on Deep Reinforcement Learning [4.353144350714567]
このプロジェクトは主にオフライントレーニングのための仮想ユーザ環境を確立する。
同時に,2クラスタリングに基づく強化学習アルゴリズムを改良して,推奨エージェントの行動空間と推奨経路空間を拡張することを試みた。
論文 参考訳(メタデータ) (2020-12-09T15:23:53Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。