論文の概要、ライセンス

# (参考訳) オフライン強化学習によるwebサービスのパーソナライズ [全文訳有]

Personalization for Web-based Services using Offline Reinforcement Learning ( http://arxiv.org/abs/2102.05612v1 )

ライセンス: CC BY 4.0
Pavlos Athanasios Apostolopoulos, Zehui Wang, Hanson Wang, Chad Zhou, Kittipat Virochsiri, Norm Zhou, Igor L. Markov(参考訳) 大規模Webベースのサービスは、観察されたユーザインタラクションに基づいてUIポリシーを改善する機会を提供する。 モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。 メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。 実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。

Large-scale Web-based services present opportunities for improving UI policies based on observed user interactions. We address challenges of learning such policies through model-free offline Reinforcement Learning (RL) with off-policy training. Deployed in a production system for user authentication in a major social network, it significantly improves long-term objectives. We articulate practical challenges, compare several ML techniques, provide insights on training and evaluation of RL models, and discuss generalizations.
公開日: Wed, 10 Feb 2021 18:17:00 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Personalization for Web-based Services using Offline Reinforcement Learning オフライン強化学習によるwebサービスのパーソナライズ 0.81
Pavlos Athanasios Apostolopoulos Pavlos Athanasios Apostolopoulos 0.85
Albuquerque, NM pavlosapost@unm.edu アルバカーキ、NM pavlosapost@unm.edu 0.72
The University of New Mexico, ECE ニューメキシコ大学(ECE) 0.55
Zehui Wang, Hanson Wang, Chad Zhou, Zehui Wang, Hanson Wang, Chad Zhou 0.76
Kittipat Virochsiri, Norm Zhou, Igor L. Markov {wzehui,hansonw,yuzho ubrother,kittipat,nz hou,imarkov}@fb.com Kittipat Virochsiri, Norm Zhou, Igor L. Markov {wzehui,hansonw,yuzho u Brother,kittipat,nzh ou,imarkov}@fb.com 0.98
Facebook Inc., Menlo Park, CA Facebook Inc., Menlo Park, CA 0.85
1 2 0 2 b e F 0 1 1 2 0 2 b e F 0 1 0.85
] G L . ] G L。 0.79
s c [ 1 v 2 1 6 5 0 sc [ 1 v 2 1 6 5 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
ABSTRACT Large-scale Web-based services present opportunities for improving UI policies based on observed user interactions. ABSTRACT 大規模 Web ベースのサービスは、観察されたユーザーインタラクションに基づいて UI ポリシーを改善する機会を提供します。 0.58
We address challenges of learning such policies through model-free offline Reinforcement Learning (RL) with off-policy training. モデルなしのオフライン強化学習(RL)を通じて政策を学習する上での課題に対処する。 0.71
Deployed in a production system for user authentication in a major social network, it significantly improves long-term objectives. メジャーなソーシャルネットワークでユーザー認証の運用システムにデプロイすることで、長期的な目的を大幅に改善します。 0.69
We articulate practical challenges, compare several ML techniques, provide insights on training and evaluation of RL models, and discuss generalizations. 実践的な課題を明確にし、いくつかのML手法を比較し、RLモデルのトレーニングと評価に関する洞察を提供し、一般化について議論する。 0.52
1 INTRODUCTION For Web-based services with numerous customers, such as social networks, UI decisions impact top-line metrics, such as user engagement, costs and revenues. ソーシャルネットワークなど多数のユーザを抱えるwebベースのサービスでは,ユーザエンゲージメントやコスト,収益など,ui決定がトップラインの指標に影響を与える。 0.80
Machine learning, especially Supervised Learning, can optimize these decisions but long-term cumulative objectives makes it challenging to label each decision for training. 機械学習、特に教師付き学習は、これらの決定を最適化することができますが、長期的な累積目標により、各決定をトレーニングにラベル付けすることが困難になります。 0.49
As an illustration, consider online user authentication. 図解として、オンラインユーザ認証を考えてみよう。 0.55
When a user mistypes or forgets her password, the service can loop back to the login prompt or offer another login channel, authorization code via SMS (Short Message Service), etc. ユーザーがパスワードをタイプしたり忘れたりすると、サービスはログインプロンプトにループバックしたり、別のログインチャネルやsms(ショートメッセージサービス)経由の認証コードを提供したりできる。 0.79
The user’s context is a part of a personalized configuration. ユーザのコンテキストは、パーソナライズされた設定の一部である。 0.77
The scale of the social network makes monetary cost (service fees for authentication) significant. ソーシャルネットワークの規模は、金銭的コスト(認証のためのサービス料金)を大きくする。 0.73
Some users get their password right on the second try or look it up but others give up, and this is reflected in daily/monthly user engagement. パスワードを2回目の試行錯誤で取得するユーザもいれば,それを諦めるユーザもいれば,毎日あるいは月単位のユーザエンゲージメントに反映される場合もある。
訳抜け防止モード: パスワードを2回目で確認するユーザーもいるが、諦めるユーザーもいる。 これは、毎日または毎月のユーザーエンゲージメントに反映されます。
0.72
Deciding when to authenticate requires real-time personalization with consideration for cost and engagement metrics, but the impact on end metrics is delayed. 認証のタイミングを決定するには、コストとエンゲージメントのメトリクスを考慮して、リアルタイムのパーソナライズが必要ですが、エンドメトリックへの影響は遅れます。 0.57
Our work addresses these challenges with ML, describes insights on model selection and training, and reports a production deployment. 私たちの仕事は、これらの課題をMLで解決し、モデルの選択とトレーニングに関する洞察を説明し、製品展開を報告します。 0.54
We also explain how our general approach and our infrastructure generalize to multiple challenges beyond the didactic application. また、私たちの一般的なアプローチとインフラストラクチャは、戦術的なアプリケーション以外の複数の課題にどのように一般化するかを説明します。 0.45
Prior efforts on personalized configuration systems covers a wide range of content-serving applications, including recommendation systems [7, 8], ad targeting [1, 35], and personalized medical healthcare [11]. パーソナライズされた構成システムに対する以前の取り組みは、レコメンデーションシステム [7, 8]、広告ターゲティング [1, 35]、パーソナライズされた医療[11]など、幅広いコンテンツ提供アプリケーションを対象としていた。 0.68
Recent advances in Machine Learning brought us expressive deep neural networks with effective generalization, as well as infrastructure for building real-time systems powered by ML. 機械学習の最近の進歩は、効果的な一般化とMLを活用したリアルタイムシステム構築のためのインフラストラクチャを備えた表現力豊かなディープニューラルネットワークをもたらしました。 0.60
A common theme is to provide a personalized configuration and optimize desired end metrics given user’s real-time context. 一般的なテーマは、パーソナライズされた構成を提供し、ユーザのリアルタイムコンテキストに応じて、望ましいエンドメトリックを最適化することだ。 0.60
Supervised Learning methods have shown promising results [10, 38], but they only focus on optimizing immediate metrics such as the click-through rate [20] and conversion rate [24]. 教師あり学習法は有望な結果(10,38]を示したが,クリックスルー率[20]やコンバージョン率[24]などの即時指標の最適化にのみ注目している。 0.74
This limitation is important for long-term user engagement (daily/monthly active users and monetary cost), as shown by the authentication example. この制限は、認証例で示すように、長期ユーザエンゲージメント(日々/月単位のアクティブユーザと金銭コスト)において重要である。 0.74
Reinforcement Learning (RL) [31] seeks an optimal policy to maximize a long-term reward, and thus helps drive real-time personalized decisions [33]. 強化学習(rl)[31]は長期的な報酬を最大化するための最適方針を求めており、それによってリアルタイムパーソナライズされた意思決定の推進に役立ちます [33]。 0.64
Here, the RL agent’s environment is an RLエージェントの環境はここにあります。 0.66
individual online user, and the personalized serving procedure is modeled via sequential agent-environment interactions. 個別のオンラインユーザとパーソナライズされたサービス手順は、シーケンシャルなエージェント-環境相互作用によってモデル化される。 0.58
Therefore, the RL agent alternates between policy improvement and interaction with the environment. したがって、RLエージェントは、政策改善と環境との相互作用を交互に行う。 0.67
In practice, RL agents need many interactions to learn good policies [6]. 実際には、RLエージェントは優れたポリシーを学ぶために多くの相互作用が必要です [6]。 0.56
To this end, training RL agents online may undermine user experience and/or incur large costs. この目的のために、オンラインのRLエージェントのトレーニングは、ユーザーエクスペリエンスを損なったり、大きなコストを被る可能性があります。 0.49
Hence, policies are trained offline using logged interactions from any type of prior policies (Offline RL in Section 3). したがって、ポリシーは、あらゆる種類の事前ポリシー(セクション3のオフラインRL)からのログインタラクションを使用してオフラインでトレーニングされます。 0.58
In this work, we use Offline RL to improve personalized authentication for a Web-based service. この作業では、Webベースのサービスのパーソナライズされた認証を改善するために、Offline RLを使用します。
訳抜け防止モード: この作品ではオフラインrlを使って webベースのサービスのパーソナライズド認証を改善する。
0.72
We formalize the problem as a Markov decision process (MDP) [26], where the RL agent learns a personalized policy, i.e., when to send an authentication message to the user after a failed login attempt. 我々は、この問題をマルコフ決定プロセス(MDP) [26] として定式化し、そこでRLエージェントはパーソナライズされたポリシー、すなわちログインの失敗後に認証メッセージをユーザに送信するタイミングを学習する。 0.77
The training process optimizes long-term user engagement and the service’s authentication costs. トレーニングプロセスは、長期のユーザエンゲージメントとサービスの認証コストを最適化する。 0.89
We avoid the pitfalls of online trial-and-error by training on prior experiences logged for different policies through off-policy learning. オンラインの試行錯誤の落とし穴を回避するため、オフポリシ学習を通じて異なるポリシーにログインした過去の経験をトレーニングします。 0.52
To ensure effective offline training, we use several training heuristics, then evaluate performance of the learned candidate policies via an unbiased off-policy estimator. 効果的なオフライントレーニングを確保するため、我々はいくつかのトレーニングヒューリスティックを使用し、未バイアスのオフポリシー推定器を用いて学習された候補ポリシーの性能を評価する。 0.51
The best learned policy is chosen and evaluated in online A/B tests [15] on live data. 最良の学習方針は、ライブデータに関するオンラインA/Bテスト[15]で選択および評価されます。 0.69
The remaining part of the paper is organized as follows. 残りの部分は以下の通り構成されている。 0.68
We review Reinforcement Learning in Section 2 focusing on off-policy learning. 我々は、オフポリシ学習に焦点を当てたセクション2で強化学習をレビューします。 0.56
Section 3 discusses the need for offline learning and the challenges of deploying such applications. 第3章では、オフライン学習の必要性と、そのようなアプリケーションのデプロイの課題について論じている。 0.49
A representative application amenable to reinforcement learning is covered in Section 4, and problem formalization in Section 5. 強化学習に適する代表アプリケーションは第4節で、第5節で問題定式化される。 0.54
Our contributions are introduced in Section 6 where we describe an industry application of Offline RL to user authentication. 当社のコントリビューションは第6節で紹介され,ユーザ認証へのオフラインRLの産業応用について述べる。 0.73
Section 7 details how our Offline RL model was deployed to a major social network and compares it to a supervised-learning baseline. セクション7では、オフラインRLモデルが主要なソーシャルネットワークにどのようにデプロイされたかを説明し、それを教師付き学習ベースラインと比較します。
訳抜け防止モード: 第7節 詳細 私たちのオフラインrlモデルは、主要なソーシャルネットワークにデプロイされました 教師付き学習ベースラインと比較します。
0.64
Section 8 puts our work in perspective and discusses personalization more broadly. 第8節では、仕事を視野に入れ、パーソナライゼーションをより広く論じます。 0.52
2 BACKGROUND In this section, we review the background and establish notation that will be used later. 2 BACKGROUND このセクションでは、背景を見直し、後で使われる表記法を確立します。 0.75
Section 2.1 reviews Reinforcement Learning theory [31] and Section 2.2 focuses on off-policy learning. 第2.1節は強化学習理論 [31] をレビューし、第2.2章はオフポリシ学習に焦点を当てている。 0.54
2.1 Preliminaries on Reinforcement Learning Reinforcement learning seeks to control an interactive dynamic system. 2.1 Reinforcement Learning Reinforcement Learningの前提は、インタラクティブな動的システムを制御しようとするものである。 0.69
At each discrete time step, 𝑡 = 0, 1, · · · , the agent observes the environment’s state 𝑠𝑡 and responds with action 𝑎𝑡, while the environment responds with an associated reward 𝑟𝑡+1 and transitions into the next state 𝑠𝑡+1. 各離散時間ステップにおいて、t = 0, 1, · · · , エージェントは環境の状態 st を観察し、アクションに応答し、環境は関連する報酬 rt+1 に応答し、次の状態 st+1 に遷移する。 0.83
To this end, the environment can be defined by a Markov Decision Process (MDP) (S, A, 𝑟, 𝑝, 𝛾) [26], where S is the state space with 𝑠𝑡 ∈ S, A is the action space with この目的のために、環境はマルコフ決定過程 (MDP) (S, A, r, p, γ) [26] によって定義できる。
訳抜け防止モード: この目的のために、環境はマルコフ決定プロセス(MDP)によって定義することができます(S。 A, 𝑟, 𝑝, 𝛾 ) [ 26 ], ここで S は st ∈ S を持つ状態空間である。 A はアクションスペースです。
0.83
英語(論文から抽出)日本語訳スコア
𝑎𝑡 ∈ A, 𝑟𝑠 𝑎 is the reward function, 𝑝(·|𝑠, 𝑎) is a conditional probability distribution of the form 𝑝(𝑠𝑡+1|𝑠𝑡 , 𝑎𝑡) (environment’s dynamics), and 𝛾 ∈ (0, 1] is a scalar discount factor. ∈ A において、rs a は報酬関数であり、p(·|s, a) は p(st+1|st , at) (環境のダイナミクス) 形式の条件付き確率分布であり、γ ∈ (0, 1] はスカラー割引係数である。 0.89
A Reinforcement Learning agent seeks a policy 𝜋∗(𝑎𝑡|𝑠𝑡) that for each state defines a distribution over possible actions. 強化学習エージェントは、各状態に対して可能な行動に対する分布を定義するポリシーπ(at|st)を求める。 0.74
The policy should maximize cumulative reward over time, i.e., an expectation under the environment’s dynamics: 政策は、時間とともに累積報酬、すなわち環境のダイナミクスの下での期待を最大化するべきである。 0.72
𝐽(𝜋) = E 𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 J(π) = E 𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 0.85
(1) 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝑠𝑡 ∼ 𝑝(·|𝑠𝑡−1, 𝑎𝑡−1), 𝑎𝑡 ∼ 𝜋(·|𝑠𝑡) (1) 𝑠0 = 𝑠, 𝑎0 = 𝑎, 𝑠𝑡 ∼ 𝑝(·|𝑠𝑡−1, 𝑎𝑡−1), 𝑎𝑡 ∼ 𝜋(·|𝑠𝑡) 0.85
Based on Equation 1, the Reinforcement Learning problem can be viewed as an optimization over the space of policies 𝜋: 方程式 1 に基づいて、強化学習問題はポリシー π の空間上の最適化と見なすことができる。 0.75
𝜋∗ = arg max π∗ = arg max 0.98
𝜋 E 𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 𝜋 へえ 𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 0.73
(2) For policies 𝜋𝜃 smoothly parameterized by weights 𝜃, Equation 1 is amenable to gradient descent in terms of ∇𝜃 𝐽(𝜋𝜃), i.e., policy gradients [28, 32]. (2) 政策 πθ は重み θ によって滑らかにパラメータ化され、方程式 1 は θ j(πθ) の項で勾配降下できる、すなわち政策勾配 [28, 32] である。 0.81
Functional dependency of 𝜋 on 𝑠𝑡 , 𝑎𝑡 makes it easier to work with stochastic policies. 関数的 π の st への依存性は、確率的ポリシーを扱うのが容易である。 0.66
Additionally, the Reinforcement Learning objective in Equation 1 can be optimized by accurately estimating a state-action value function [31], and then using that value function to derive an optimal policy 𝜋∗. さらに、状態動作値関数[31]を正確に推定し、その値関数を用いて最適なポリシーπ∗を導出することにより、方程式1における強化学習目標を最適化することができる。 0.78
The state-action value function of policy 𝜋 is ポリシー π の状態-作用値関数は 0.82
∞∑︁ 𝑡=0 ∞∑︁ ∞∑︁ 𝑡=0 ∞∑︁ 0.72
𝑡=0 (cid:35) 𝑡=0 (cid:35) 0.69
(cid:34) ∞∑︁ (cid:2)𝑄𝜋 (𝑠𝑡+1, 𝑎𝑡+1)(cid:3) (cid:34) (cid:2)Qπ (st+1, at+1)(cid:3) 0.69
𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 𝑡=0 𝛾𝑡𝑟𝑠𝑡 𝑎𝑡 𝑡=0 0.72
, (3) (4) (5) , (3) (4) (5) 0.85
𝑄𝜋 (𝑠𝑡 , 𝑎𝑡) = E𝑠𝑡∼𝑝(𝑠𝑡 |𝑠𝑡−1,𝑎𝑡−1) and we can express 𝑄𝜋 (𝑠𝑡 , 𝑎𝑡) as follows: 𝑎𝑡 + 𝛾 E𝑠𝑡+1∼𝑝(𝑠𝑡+1|𝑠𝑡 ,𝑎𝑡) 𝑎𝑡+1∼𝜋 (𝑎𝑡+1|𝑠𝑡+1) qπ (st , at) = est\p(st |st−1,at−1) であり、qπ (st , at) を次のように表現することができる。 0.70
𝑄𝜋 (𝑠𝑡 , 𝑎𝑡) = 𝑟𝑠𝑡 𝑄𝜋 (𝑠𝑡 , 𝑎𝑡) = 𝑟𝑠𝑡 0.85
𝑎𝑡∼𝜋 (𝑎𝑡 |𝑠𝑡) 𝑎𝑡∼𝜋 (𝑎𝑡 |𝑠𝑡) 0.78
A policy can be defined for a state-action value function by ポリシーは状態-作用値関数に対して定義することができる 0.80
𝜋(𝑎𝑡|𝑠𝑡) = 𝛿(𝑎𝑡 = arg max 𝑎𝑡 ∈A π(at|st) = δ(at = arg max at ∈A 0.97
𝑄(𝑠𝑡 , 𝑎𝑡)), 𝑄(𝑠𝑡 , 𝑎𝑡)), 0.66
(cid:21) (cid:20) (cid:21) (cid:20) 0.78
and by substituting Equation 5 into Equation 4, we obtain the Bellman optimality equations [5] that characterize optimal policies in terms of optimal Q-functions 𝑄∗ = 𝑄𝜋∗: そして、Equation 5 を Equation 4 に置き換えることで、最適な Q-函数 Q, = Qπ を特徴づけるベルマン最適度方程式 [5] を得る。 0.75
𝑄∗(𝑠𝑡 , 𝑎𝑡) = 𝑟𝑠𝑡 𝑄∗(𝑠𝑡 , 𝑎𝑡) = 𝑟𝑠𝑡 0.85
𝑎𝑡 + 𝛾 E𝑠𝑡+1∼𝑝(𝑠𝑡+1|𝑠𝑡 ,𝑎𝑡) at + γ Est+1\p(st+1|st ,at) 0.63
𝑄∗(𝑠𝑡+1,𝑎𝑡+1) 𝑄∗(𝑠𝑡+1,𝑎𝑡+1) 0.75
max𝑎𝑡+1 (6) maxat+1 (6) 0.72
Therefore, Reinforcement Learning (Equation 2) seeks an optimal policy 𝜋∗ such that 𝑄𝜋∗(𝑠𝑡 , 𝑎𝑡) ≥ 𝑄𝜋 (𝑠𝑡 , 𝑎𝑡), ∀𝜋, 𝑠𝑡 ∈ S, 𝑎𝑡 ∈ A. したがって、強化学習(方程式2)は Qπ∗(st , at) ≥ Qπ (st , at) , sπ, st ∈ S, at ∈ A であるような最適ポリシー π∗ を求める。 0.87
2.2 Off-Policy Learning In the discussion below, we focus on policies defined by state-action value functions per Equation 5, and 𝜀-greedy policies [31] that perform random exploration with a small probability. 2.2 オフ・ポリシ・ラーニング 以下の議論では、Equation 5 ごとにステート・アクション・バリュー関数によって定義されるポリシーと、小さな確率でランダムな探索を行う ε-greedy Policy [31] に焦点を当てる。 0.60
This focus simplifies the narrative, and we found such policies successful in practice. この焦点は物語を単純化し、そのようなポリシーは実際に成功しました。 0.48
Sections 5 and 7 also discuss parameterized policies that draw actions from state-conditional probability distributions and are trained to maximize cumulative rewards. セクション5と7はまた、状態条件の確率分布から行動を引き出すパラメータ化されたポリシーについて議論し、累積報酬を最大化するように訓練される。 0.56
Striving for an optimal Q-function 𝑄∗ and therefore an optimal policy 𝜋∗ = 𝛿(𝑎𝑡 = arg max 𝑄∗(𝑠𝑡 , 𝑎𝑡)), Q-learning [41] alternates between two phases. 最適 Q-函数 Q を探索し、したがって最適なポリシ π = δ(at = arg max Q*(st , at)) を求めると、Q-ラーニング [41] は2つの相を交互に行う。 0.71
First, it improves an approximate estimate 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃) of 𝑄∗ by repeatedly regressing Equation 6 with respect to parameters 𝜃. まず、パラメータθに対して方程式6を繰り返し回帰することにより、q∗の近似推定q(st , at θ)を改善する。 0.76
In off-policy Q-learning, an action オフポリシーQ-ラーニングにおける行動 0.56
Apostolopoulos et al. Apostolopoulos et al。 0.81
with the best Q-value is considered Bellman-optimal per Equation 6 and used in gradient calculations. 最良のq値は、方程式 6 に対してベルマン最適と見なされ、勾配計算に使用される。 0.59
In the second phase, the agent explores the environment, typically following a stochastic policy based on 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃), e.g., an 𝜖-greedy [31] version of 𝜋(𝑠𝑡) = 𝛿(𝑎𝑡 = arg max 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃)). 第2段階において、エージェントは環境を探索し、典型的には q(st , at ; θ) に基づく確率的方針に従う(例えば π(st) = δ(at = arg max q(st , at ; θ) の ε-greedy [31] バージョン)。 0.78
Q-learning takes a single gradient step per training iteration to minimize the difference between the left-hand and right-hand side of Equation 6. q-learningは、トレーニングイテレーション毎に単一の勾配ステップを踏んで、方程式6の左辺と右辺の違いを最小限に抑える。
訳抜け防止モード: Q - 学習はトレーニングイテレーション毎に1段階の勾配を踏む 方程式6の左手と右手の違いを最小化する。
0.83
Among the many variants of this learning procedure, the most common variant called DQN [22] utilizes a replay buffer D = {(𝑠𝑖 𝑡+1)} , 𝑟𝑖 for storing the agent’s interaction with the environment and alternates between data collection and gradient steps with respect to the Temporal Difference loss function L𝑖(𝜃𝑖), defined as follows via Equation 6: この学習手順の多くの変種のうち、dqn [22]と呼ばれる最も一般的な変種は、リプレイバッファd = {(si t+1)} を使い、riはエージェントの環境との相互作用を保存し、式6で定義される時間差損失関数li(θi)に対してデータ収集と勾配ステップを交互に切り替える。 0.78
𝑡 , 𝑎𝑖 𝑡 , 𝑠𝑖 𝑡 , 𝑎𝑖 𝑡 , 𝑠𝑖 0.85
𝑡+1 L𝑖(𝜃𝑖) = E𝑠𝑡 ,𝑎𝑡∼𝐷(cid:2)(𝑦𝑖 − 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃𝑖))2(cid:3) (cid:104)𝑟(𝑠𝑡 , 𝑎𝑡) + 𝛾max𝑎 𝑡+1 Li(θi) = Est ,at'D(cid:2)(yi − Q(st , at ; θi))2(cid:3) (cid:104)r(st , at) + γmaxa 0.74
𝑄(𝑠𝑡+1, 𝑎; 𝜃− 𝑄(𝑠𝑡+1, 𝑎; 𝜃− 0.86
𝑖 ))(cid:105), 𝜃𝑖 are the pa- i ) (cid:105), θi は pa- 0.83
(7) Here 𝑦𝑖 = E𝑠𝑡+1∼𝐷 rameters of the approximate Q-function at the iteration 𝑖 of the learning procedure, and for better stability in the learning procedure the 𝜃− 𝑖 are frozen parameters that are used for estimating the target values, i.e., 𝑦𝑖. (7) ここで yi = Est+1*D は学習手順の反復 i における近似 Q-函数のラメータであり、学習手順の安定性を高めるために y−i は、目標値、すなわち yi を推定するために使用される凍結パラメータである。 0.82
The 𝜃− parameters are periodically updated to the current parameters 𝜃 of the parametric Q-function. θ−パラメータはパラメトリックq関数の現在のパラメータθに周期的に更新される。 0.82
Variants of DQN decouple the selection from action evaluation (Double DQN [36]), or approximate the Q-function through dueling network architectures (Dueling DQN [40]) to address the overestimation of Q-values in the DQN setting. DQNの変数は、動作評価(Double DQN [36])から選択するか、あるいはネットワークアーキテクチャ(Dueing DQN [40])を介してQ関数を近似して、DQN設定におけるQ値の過大評価に対処する。 0.84
Q-learning and its aforementioned deep reinforcement learning variants are characterized as off-policy algorithms [31], since the learning target values 𝑦𝑖 can be computed without any consideration of the policy that was used to generate the experiences of the replay buffer i.e., D = {(𝑠𝑖 学習対象値 yi は、リプレイバッファの経験を生成するために使用されたポリシーを考慮せずに計算することができるので、Q-ラーニングとその前述の深い強化学習変異は、オフポリシーアルゴリズム [31] として特徴付けられる。 0.87
𝑡 , 𝑎𝑖 𝑡 , 𝑠𝑖 𝑡 , 𝑎𝑖 𝑡 , 𝑠𝑖 0.85
𝑡+1 𝑡+1)}. 𝑡+1 𝑡+1)}. 0.71
, 𝑟𝑖 𝑡+1 𝑡 , 𝑠𝑖 , 𝑟𝑖 𝑡+1 𝑡 , 𝑠𝑖 0.76
𝑡 , 𝑎𝑖 3 OFFLINE REINFORCEMENT LEARNING Offline Reinforcement Learning seeks policy 𝜋∗ to maximize cumulative reward (Equation 1), but avoids live interactions with the environment during training. 𝑡 , 𝑎𝑖 3 OFFLINE ReINFORCEMENT LEARNING Offline Reinforcement Learningは、累積報酬を最大化するためのポリシーπ∗を求めるが、トレーニング中の環境とのライブインタラクションは避ける。 0.78
It is used when such interactions can be harmful [9]. そのような相互作用が有害な場合に使用される[9]。 0.85
Hence, a static dataset of state-action transitions 𝑡+1)} logged via behavioral policy 𝜋𝛽 is used. したがって、行動ポリシーπβを介してログされた状態遷移t+1の静的データセットが使用される。 0.68
D𝜋𝛽 = {(𝑠𝑖 , 𝑟𝑖 Web-based services routinely log each user session, but offline RL based on Equation 7 requires redundant logs, where each row includes the previous state 𝑠𝑡 and next state 𝑠𝑡+1 [9]. Dπβ = {(si , ri Web ベースのサービスは、通常、各ユーザセッションをログするが、Equation 7 に基づくオフライン RL では、各行が前の状態 st と次の状態 st+1 [9] を含む冗長なログが必要である。 0.72
Such rows can be used independently and batch-sampled for training. このような行は独立して使用でき、トレーニング用にバッチサンプリングできます。 0.51
Offline RL trains on state-action transitions batch-sampled from training set D𝜋𝛽 through off-policy learning (Section 2.2). オフラインのRL列車は、非政治学習を通して訓練セットDπβからバッチサンプリングされる(Section 2.2)。 0.56
Learning relies on RL mechanisms such as optimal state-action values (e.g., Equation 7), but generalization results from supervised learning should apply. 学習は最適な状態作用値(例えば方程式7)のようなRLメカニズムに依存するが、教師付き学習による一般化の結果は適用されるべきである。 0.65
After the learned policy 𝜋∗ is evaluated offline and tuned, online evaluation uses live interaction with the environment. 学習方針 π∗ がオフラインで評価され、調整された後、オンライン評価は環境とのライブインタラクションを使用する。 0.54
Off-policy Reinforcement Learning algorithms (DQN, Double DQN, and Dueling DQN) that estimate the state-action value function 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃) can be directly used offline. 状態-作用値関数Q(st , at ; θ)を推定するオフライン強化学習アルゴリズム(DQN、Double DQN、Dueling DQN)を直接オフラインで使用することができる。 0.86
However, the online regime has the benefit of additional data collection via environment interaction (exploration) that helps the agent refine its 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃) estimates for high-reward actions. しかし、オンラインレジームには環境相互作用(爆発)による追加データ収集の利点があり、エージェントが高反発アクションのq(st , at θ)推定を洗練するのに役立つ。 0.68
Although off-policy learning has shown promising results in offline RL [2, 14], the lack of exploration limits agent’s learning [17] due to distributional shift phenomena. オフラインのRL[2,14]では,非政治学習が有望な結果を示しているが,分布シフト現象による探索エージェントの学習 [17] が欠如している。 0.81
英語(論文から抽出)日本語訳スコア
Personalization for Web-based Services using Offline Reinforcement Learning オフライン強化学習によるwebサービスのパーソナライズ 0.81
State distributional shift affects offline RL algorithms during the agent’s exposure on the real-world environment (deployment phase) [17]. 状態分布シフトは、エージェントが実環境(デプロイフェーズ)への露出中にオフラインのRLアルゴリズムに影響を与える[17]。 0.84
The latter occurs as the agent’s learned policy 𝜋∗ may follow a systematically different state visitation frequency compared to the one of the training set, i.e., D𝜋𝛽 , that is induced by the behavior policy 𝜋𝛽. 後者は、エージェントが学習したポリシー π∗ が、行動ポリシー πβ によって引き起こされる訓練セットの1つ、すなわち dπβ と比較して体系的に異なる状態訪問頻度に従う可能性があるときに起こる。 0.74
In other words, since the agent’s goal is to find the best policy 𝜋∗ offline by utilizing the static dataset D𝜋𝛽 , its learned policy can diverge from the behavior policy 𝜋𝛽, invoking unreasonable actions in out-of-distribution/ unseen states. 言い換えれば、エージェントの目標は、静的データセットDπβを利用して最良のポリシーπ*をオフラインで見つけることであるので、その学習されたポリシーは、分散状態/見えない状態における不合理な行動を誘発する行動方針πβから逸脱することができる。 0.52
Action distributional shift affects off-policy learning algorithms, which are estimating the Q-function, i.e., 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃), during the training process as well [42]. 行動分布シフトは、訓練過程中にq関数、すなわちq(st , at θ)を推定するオフポリシー学習アルゴリズムに影響する [42]。
訳抜け防止モード: 行動分布の変化がオフに影響を及ぼす - q-関数を推定するポリシ学習アルゴリズム。 つまり、トレーニングプロセス中のq(st, at ; θ )も [42 ] である。
0.83
In principle, the accuracy of the regression in Equation 7 depends on the estimate of the Q-function for actions that may be outside of the distribution of actions that the Q-function was ever trained on, i.e., right-hand side of Eq. 原則として、方程式7における回帰の精度は、Q-函数がEqの右辺で訓練されたアクションの分布の外側にあるかもしれないアクションに対するQ-函数の推定に依存する。 0.82
6 . The action distribution shift is exacerbated by the differences between the agent’s learned policy and the behavioral policy 𝜋𝛽 during training. 6 . 行動分布の変化は、エージェントの学習方針とトレーニング中の行動政策πβの違いによって悪化する。 0.82
If the agent’s parameterized Q-function produces large, erroneous values for out-of-distribution actions, it will further learn to do so. エージェントのパラメータ化されたQ関数が、分布外アクションに対して大きな誤った値を生成する場合、さらにそれを学ぶでしょう。 0.65
Standard RL methods address the distributional shift via ongoing exploration by revising the state-action value function 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃). 標準RL法は、状態作用値関数Q(st , at ; s)を改訂することにより、現在進行中の探索による分布シフトに対処する。
訳抜け防止モード: 標準rl法は現在進行中の探索を通じて分布シフトに対処する 状態の修正 - アクション値関数 q(st, at ; θ )。
0.71
However, offline RL lacks such a feedback loop, and inaccuracies in the state-action value function accumulate during learning. しかし、オフラインRLにはそのようなフィードバックループがなく、学習中に状態-作用値関数の不正確さが蓄積される。 0.60
Prior research [28, 30] focuses on mitigating distributional shift in offline RL by limiting how much the learned optimal policy 𝜋∗ may deviate from the behavior policy 𝜋𝛽. 先行研究 [28, 30] はオフラインRLにおける分布シフトの緩和に焦点をあて、学習された最適政策π*が行動政策πβから逸脱する可能性があるかを制限する。 0.65
This forces the agent’s learned policy to stay close to the behavior policy and reduces state distributional shift. これにより、エージェントの学習したポリシーは行動ポリシーに近づき、状態の分散シフトを減少させる。 0.74
Additionally, the latter reduces action distributional shift during offline training as well, as most of the states and actions fed into the right-hand side of Equation 7 are in-distribution with respect to the training set. さらに、Equation 7の右側に供給される状態とアクションのほとんどはトレーニングセットに関して分散していないため、オフライントレーニング中にもアクションの分散シフトが減少します。 0.70
In that case, the action distributional shift errors should not accumulate. この場合、アクション分散シフトエラーは累積するべきではない。 0.69
As another example, the work in [12] regularizes the agent’s learned policy towards the behavioral policy by using the Kullback-Leibler (KL) divergence with a fixed regularization weight, while the Maximum Mean Discrepancy with an adaptively trained regularization weight is used in [17]. 別の例として、[12]の作業は、一定の正規化重みでkullback-leibler(kl) の分岐を用いて行動政策に対するエージェントの学習ポリシーを規則化し、[17]では適応的に訓練された正規化重みによる最大平均不一致を使用する。 0.76
Moreover, the work in [12, 42] defines target values (𝑦𝑖) to regularize the agent’s learned policy towards the behavioral policy and avoid actions inconsistent with the behavioral policy. さらに, [12, 42] の作業は, エージェントが学習した政策を行動政策に対して規則化し, 行動方針と矛盾しない行動を避けるための目標値 (yi) を定義している。 0.82
To guide our design decisions for the application in Section 4, in Section 5.1 we introduce a simplified, intuitive problem environment. 第4節第1節でアプリケーションの設計決定を導くため、単純化された直感的な問題環境を導入します。 0.64
In Section 6.1, we use this environment to illustrate important insights on distributional shift in Offline RL and the impact of behavioral policy’s exploration on the quality of trained models. セクション6.1では、オフラインrlの分散シフトと、トレーニングされたモデルの品質に対する行動ポリシーの探索の影響に関する重要な洞察を示すために、この環境を使用します。 0.74
4 APPLICATION: USER AUTHENTICATION We illustrate personalization in Web-based services with a selfcontained application that is representative of Web-based software and widespread. ユーザ認証 ウェブベースのサービスにおけるパーソナライズを、Webベースのソフトウェアを代表し、広く普及する自己完結型アプリケーションで説明する。
訳抜け防止モード: 4 応用 : ユーザ認証 自己完結型アプリケーションによる Web サービスにおけるパーソナライズ Webベースのソフトウェアと広く普及している。
0.83
It optimizes long-term rewards and favors reinforcement learning. 長期的な報酬を最適化し、強化学習を好む。 0.60
We formalize the problem in Section 5. 問題を第5節で公式化します。 0.52
User authentication starts a typical Web-based session; thus failures can limit user engagement. ユーザ認証は典型的なWebベースのセッションから始まり、失敗によってユーザのエンゲージメントが制限される。 0.63
Due to forgotten passwords, such failures are common when different passwords are used for each Web-based service. パスワードを忘れたため、Webベースのサービスごとに異なるパスワードが使用される場合、そのような失敗が一般的です。
訳抜け防止モード: 忘れられたパスワードのために このような失敗は ウェブベースのサービスごとに異なるパスワードが使用される。
0.73
The authentication UI may respond to failures by offering password recovery (Action A) or by prompting another log-in attempt (Action B), see Figure 1. 認証 UI は、パスワードの回復 (Action A) を提供するか、別のログイン試行 (Action B) をプロンプトすることによって失敗に応答する可能性があります。 0.69
Password recovery verifies パスワードの回復が検証される 0.51
the user’s identity by sending a code to a pre-registered mobile phone or another user-owned device. 登録済みの携帯電話または他のユーザ所有のデバイスにコードを送信することで、ユーザのアイデンティティを識別する。 0.65
Common options include • One-Time Password (OTP) sent via SMS and email • Time-based One-Time Password (TOTP) authentication [19]. 共通オプション。 • SMSおよびメール経由で送信されるワンタイムパスワード(OTP) • タイムベースのワンタイムパスワード(TOTP) 認証 [19]。 0.74
Such authentication is considered safe unless the user’s device is compromised or the phone number is hijacked [29].1 In our application, we authenticate via OTP. このような認証は、ユーザーのデバイスが侵害されたり、電話番号がハイジャックされない限り安全と見なされます [29].1 私たちのアプリケーションでは、私たちはOTPを介して認証します。
訳抜け防止モード: このような認証は 安全 ユーザーのデバイスが侵害されない限り または、私たちのアプリケーションで電話番号が乗っ取られる[29].1。 認証はotpで行います。
0.81
Figure 1: User authentication UI. 図1: ユーザ認証ui。 0.69
The decision mechanism that choses between available actions may affect long-term objectives, for example user engagement captured by how many service users are active per day or per month. 利用可能なアクション間で選択する決定メカニズムは、例えば、1日あたりのサービスユーザー数や月あたりのアクティブユーザー数によってキャプチャされたユーザーエンゲージメントなど、長期的な目標に影響を与える可能性があります。
訳抜け防止モード: 利用可能なアクションから選択する決定メカニズムは、長期的な目標に影響を与えます。 例えば サービス利用者数や 1日または1ヶ月で活動しています
0.74
To this end, Action A may typically succeed and improve user engagement but incurs OTP costs. この目的のために、Action Aは通常成功し、ユーザーエンゲージメントを向上させるが、OTPコストがかかる。 0.57
Action B may succeed without such costs, and if it fails again, Action A can still be invoked. アクションBはそのようなコストなしで成功し、また失敗してもアクションAを起動することができる。 0.72
A nascent Web-based service may strive to grow user engagement at greater cost, but mature services may lean towards lower cost. 生まれたばかりのWebベースのサービスは、より高いコストでユーザエンゲージメントの向上を目指すかもしれないが、成熟したサービスは低コストに傾くかもしれない。 0.51
Training the decision mechanism on user activity assumes trends or patterns, as well as sufficient features to learn them. ユーザアクティビティにおける決定メカニズムのトレーニングは、トレンドやパターンを想定し、それらを学ぶのに十分な機能を持つ。 0.63
When different user cohorts develop different trends, separating them simplifies the learning task. 異なるユーザコホートが異なる傾向を発達させると、それらを分離することで学習作業が簡単になる。 0.55
For example, new users may exhibit different behaviors than long-term users or have less historical data to use for inferences. 例えば、新規ユーザーは長期ユーザーとは異なる行動を示す場合や、推論に使用する過去のデータが少ない場合があります。 0.72
This paper focuses on users with prior login history and additional user features. 本稿では,事前ログイン履歴と追加ユーザ機能を持つユーザに焦点を当てる。 0.72
Additional aspects of the problem are worth noting. 問題のさらなる側面は注目に値する。 0.69
Compared to multiplayer games, the lack of typical-case adversarial behavior simplifies successful policies and makes them easier to learn from logged data without simulated interactions. マルチプレイヤーゲームと比較して、典型的対向動作の欠如は成功ポリシーを単純化し、対話をシミュレートせずにログデータから学習しやすくする。 0.67
On the other hand, training a policy from scratch on user interactions in a live production system may adversely affect user engagement until the policy is optimized. 一方、実運用システムにおけるユーザインタラクションのスクラッチからポリシーをトレーニングすることは、ポリシーが最適化されるまでユーザエンゲージメントに悪影響を及ぼす可能性がある。 0.70
Compared to the (contextual) bandit setup, this problem exhibits sequential depth. コンテクスチュアルな)帯域設定と比較すると、この問題は逐次深度を示す。 0.64
Extensions of this problem include state-dependent and larger action spaces, and substantial generalizations covered in Section 8. この問題の拡張には、状態依存およびより大きなアクション空間、およびセクション8でカバーされる実質的な一般化が含まれる。 0.61
5 PROBLEM FORMALIZATION The application introduced in Section 4 deals with sequences of actions, e.g., Action B can be tried several times before falling back on Action A. 第4節で導入されたアプリケーションはアクションのシーケンスを扱う。例えば、アクションBはアクションAに戻る前に数回試すことができる。 0.69
The sequential nature of this application calls for models based on states and state transitions. このアプリケーションのシーケンシャルな性質は、状態と状態遷移に基づくモデルを呼び出します。 0.85
First, we introduce a simplified, intuitive example used later in the paper and then outline our full-fledged state model. まず、後に論文で使用される単純化された直感的な例を紹介し、完全な状態モデルを概説します。 0.62
1Such authentication can also support two-factor authentication (2FA) [3, 27]. 1Such認証は2要素認証(2FA) [3, 27]もサポートする。 0.74
Action AAction B Action AAction B 0.85
英語(論文から抽出)日本語訳スコア
5.1 A motivational example Consider the user-authentication application with two possible actions at a time, introduced in Section 4. 5.1 モチベーションの例として、第4節に記載された2つのアクションを同時に行うユーザ認証アプリケーションを考える。 0.65
It is easy to check whether Action A (password recovery) is more beneficial than Action B (another log-in attempt) on average, marginalizing all other information. Action A(パスワードリカバリ)がAction B(別のログイン試み)よりも有益かどうかを平均的に確認し、他のすべての情報を限界にします。 0.74
This generalizes to short sequences, e.g., which action is preferable after one Action B? これは短い列に一般化する:例えば、1つのアクションbの後、どのアクションが望ましいか? 0.63
After two of them? (marginalizing everything else). 二人の後に? (他のすべてをマージする)。 0.65
By capturing such sequences up to some depth, one can optimize per-action rewards using either supervised or reinforcement learning. このようなシーケンスをある程度の深さまでキャプチャすることで、教師付きあるいは強化学習を使用してアクションごとの報酬を最適化することができる。 0.52
Figure 2 illustrates possible system actions from the initial failed-login state and subsequent states, as well as implied state transitions. 図2は、最初のフェールログ状態とその後の状態から可能なシステムアクションと、暗黙の状態遷移を示しています。 0.70
The feedback to system actions is captured by rewards only (which include OTP costs as per Equation 8), and successful logins bring higher rewards than failures. システムアクションに対するフィードバックは報酬(Equation 8によるOTPコストを含む)によってのみ取得され、成功したログインは失敗よりも高い報酬をもたらします。 0.77
State transitions depend entirely on the actions chosen by the system. 状態遷移はシステムによって選択された行動に完全に依存する。 0.69
In particular, after a successful login, the sequence can continue upon a future login failure. 特に、ログインが成功した後、シークエンスは将来のログイン失敗を継続することができる。 0.70
This self-contained state-reward model can capture the most basic sequential preferences but lacks user personalization, which is key to our work. この自己完結型ステートリワードモデルは、最も基本的なシーケンシャルな嗜好を捉えることができるが、ユーザのパーソナライゼーションが欠如している。 0.48
Figure 2: State transitions during user authentication. 図2: ユーザ認証中の状態遷移。 0.83
All states are distinct and indexed with depth (subscripts) and the history of actions (encoded in binary in superscripts). すべての状態は区別され、深度(サブスクリプト)とアクションの履歴(スーパースクリプトのバイナリでエンコード)でインデックス化されます。 0.62
A user can be characterized by a number of features that cover, e.g., time since account creation and local time, the amount of online activity, etc. ユーザーは、アカウント作成以来の時間やローカル時間、オンライン活動の量など、いくつかの特徴を特徴付けることができる。
訳抜け防止モード: ユーザは、カバーする多くの特徴によって特徴づけられる。 例えば、アカウント作成から時間とローカル時間、オンラインアクティビティの量などです。
0.68
In other words, each user at each step is represented by a multidimensional vector such that proximal vectors represent similar users. 言い換えれば、各ステップの各ユーザーは、近位ベクトルが類似したユーザーを表すような多次元ベクトルで表される。 0.74
Compared to the earlier few-state model that represents an average user, personalization requires states that cannot be limited to a small predefined set. 平均的なユーザーを表す初期の少数状態モデルと比較して、パーソナライゼーションは小さな定義済みのセットに限定されない状態を必要とする。 0.72
We now interpret Figure 2 as showing possible transitions and traces for one user, wherein each user state 𝑠𝑡 in each trace is represented by a finite-dimensional feature vector (user state vector). 図2は、各トレースの各ユーザ状態stが有限次元特徴ベクトル(ユーザ状態ベクトル)で表される、あるユーザに対して可能な遷移とトレースを示すものとして解釈される。 0.85
The semantics of features are not important for our motivational example. 機能のセマンティクスはモチベーション的な例では重要ではありません。 0.57
Therefore, for each user we represent the initial state 𝑠0 (the first failed log-in attempt) with a state vector by drawing it at random from a personalized multivariate Gaussian distribution with mean and covariance selected randomly per user. 従って、ユーザ毎に平均および共分散がランダムに選択されたパーソナライズされた多変量ガウス分布からランダムに引き出すことにより、ユーザ毎に初期状態s0(最初の失敗ログインの試み)を状態ベクトルで表現する。 0.80
Subsequent user states 𝑠𝑡 with 𝑡 = 1, . その後のユーザ状態 st は t = 1 となる。 0.76
. . that correspond to future failed login attempts are generated randomly and as part of state transitions. . . 将来失敗したログインの試みは、ランダムに生成され、状態遷移の一部となる。 0.80
Specifically, a base (user) feature vector is drawn from a multivariate Gaussian that is defined per user, per discrete time step 𝑡, and per action 𝑎𝑡 ∈ {𝐴, 𝐵} that was prompted by the authentication UI on user state 𝑠𝑡−1. 具体的には、ベース(ユーザ)特徴ベクトルは、ユーザごとに、離散時間ステップ t ごとに、およびユーザ状態 st−1 の認証 UI によってプロンプトされた ∈ {A, B} でのアクションごとに定義される多変量ガウスから引き出される。 0.80
This base vector and the vector representing user state 𝑠𝑡−1 are then aggregated to construct the vector for the next user state 𝑠𝑡. この基底ベクトルとユーザ状態st−1を表すベクトルを集約して、次のユーザ状態stのベクトルを構成する。 0.85
The user engagement and corresponding action costs on each user transition (𝑠𝑡 , 𝑎𝑡 , 𝑠𝑡+1) are represented by a single 各ユーザ移行におけるユーザエンゲージメントと対応するアクションコスト(st, at , st+1)は1つずつ表現される。 0.77
Apostolopoulos et al. Apostolopoulos et al。 0.81
normalized scalar value-reward 𝑟𝑡+1. normalized scalar value-reward rt+1 0.73
The latter is drawn from a normal distribution with randomly selected mean and variance, defined per user, per time step, per action. 後者は、ランダムに選択された平均と分散の正規分布から引き出され、ユーザ毎、時間ステップ毎、アクション毎に定義される。 0.71
The simulated environment we introduced for system actions during user authentication is used as a testbed for evaluating ML techniques in Section 6. ユーザ認証におけるシステム動作のシミュレーション環境を,第6節でML技術を評価するテストベッドとして利用した。 0.80
Under our formulation, the trained decision mechanism that chooses an action for each transition aims to optimize and/or balance long-term objectives, i.e., cumulative rewards over a time horizon (Section 2.1). 私たちの定式化の下では、移行ごとに行動を選択する訓練された決定メカニズムは、長期目標、すなわち時間軸上の累積報酬を最適化および/またはバランスさせることを目指しています(第2.1)。 0.56
5.2 Our practical state model and rewards The problem formalization we use in practice differs from the motivational example in two aspects: (1) user state vectors are based on actual user features rather than drawn at random, (2) rewards are crafted to approximate long-term objectives. 5.2 実際の状態モデルと,我々が実際に使用している問題の形式化に対する報酬は,(1)ユーザ状態ベクトルはランダムに描画するよりも実際のユーザ特徴に基づいており,(2)報酬は長期的な目標を近似するために作成されている,という2つの側面のモチベーション例とは異なる。 0.66
User features for state representation include real-time (contextual) and historical features. 状態表現のユーザ機能には、リアルタイム(コンテキスト)と履歴機能がある。 0.71
On-device real-time features capture the app platform, local time of day, day of the week, login time, etc. デバイス上のリアルタイム機能は、アプリプラットフォーム、ローカル時間、週の日、ログイン時間などをキャプチャする。 0.74
Historical features focus on past events, such as the total number of user password recoveries sent in the past, time since last login, etc. 履歴機能は、過去に送信されたユーザーパスワードの総数、前回のログイン以降の時間など、過去のイベントに焦点を当てています。 0.75
Historical features may also aggregate user data specific to the authentication process, e.g., the number of authentication attempts in the last 30 days and their outcomes, which of Action A and Action B were used, and how the user reacted. 歴史的特徴は、例えば、過去30日間の認証の試みの数と結果、アクションAとアクションBのどちらが使われたか、ユーザがどのように反応したかなど、認証プロセスに特有のユーザーデータを集約することもできる。 0.77
Rewards are formulated to help optimize long-term objectives that are affected by the authentication decision mechanism. 報酬は、認証決定メカニズムの影響を受ける長期的な目標を最適化するために策定されます。 0.60
Specifically, we aim to optimize user engagement and monetary cost. 具体的には、ユーザーエンゲージメントと金銭コストの最適化を目指します。 0.65
In our Web-based service, user engagement is reported and expressed as a binary value that determines if the user was active during the day. 当社のWebベースのサービスでは、ユーザエンゲージメントをレポートし、日中アクティブかどうかを判断するバイナリ値として表現しています。 0.68
Monetary cost represents the amount of money spent on password recovery (Action A) after failed login attempts. 金銭コストは、ログインの失敗後にパスワード回復(Action A)に費やされた金額を表す。 0.78
Ideally, we would like to avoid harming user engagement and not block users from logging in, while reducing charges for Action A. 理想としては、Aアクションの課金を減らしながら、ユーザのエンゲージメントを損なうことや、ユーザのログインをブロックしないことです。 0.70
To this end, we formulate the reward as a linear combination of user engagement (UE) and monetary cost (Cost), thus この目的のために、ユーザエンゲージメント(UE)と金銭コスト(Cost)の線形結合として報酬を定式化する。 0.70
𝑟 = 𝑤𝑢 · UE − 𝑤𝑐 · Cost, where 𝑤𝑢, 𝑤𝑐 ∈ R r = wu · ue − wc · cost, ここで、wu, wc ∈ r 0.88
(8) Varying the weights helps explore the Pareto curve of multiobjective tradeoffs relevant to the application. (8)重み付けは、応用に関連する多目的トレードオフのパレート曲線の探索に役立つ。 0.76
We assign rewards to the last action on each day (Figure 3) because system metrics for user engagement are tallied at the end of each day. ユーザエンゲージメントのためのシステムメトリクスが,一日の終わりに収集されるため,その日の最後の行動に報酬を割り当てる(第3図)。 0.77
During RL training, rewards are propagated back via the Bellman equation. RLトレーニング中、報酬はベルマン方程式を介して伝播される。 0.68
6 APPLYING REINFORCEMENT LEARNING The problem formalization in Section 5 facilitates established ML techniques, including supervised and reinforcement learning. 6 強化学習の適用 第5節の問題の形式化は、監督および強化学習を含む確立されたML技術を促進する。 0.61
In this section we discuss the pros and cons of competing ML approaches, introduce our proposed RL model, then explain how training data is extracted and augmented. このセクションでは、競合するMLアプローチの長所と短所を説明し、提案されたRLモデルを紹介し、トレーニングデータの抽出と拡張方法を説明します。 0.68
Figure 3: Rewards are set daily per user, to the last action. 図3:リワードは、最後のアクションに、ユーザーごとに毎日設定されます。 0.68
英語(論文から抽出)日本語訳スコア
Personalization for Web-based Services using Offline Reinforcement Learning オフライン強化学習によるwebサービスのパーソナライズ 0.81
Figure 4: Exploration diversity improves state coverage. 図4:探索の多様性は状態カバレッジを改善します。 0.60
To visualize distributions of visited states in the feature space, we use two principal components via PCA. 特徴空間における訪問状態の分布を可視化するために,PCAを介して2つの主成分を用いる。 0.68
P(𝐴) = 0.5 exhibits the greatest state coverage (blue), whereas P(𝐴) = 0.9 exhibits limited coverage (red). P(A) = 0.5は最大の状態カバレッジ(青)を示し、P(A) = 0.9は限られた範囲(赤)を示す。 0.76
The blue pointset is cloned. 青いポインターはクローンされています。 0.50
Figure 5: The impact of exploration diversity on learning returns. 図5: 探索の多様性が学習のリターンに与える影響。 0.80
Between Actions A and B, the former is chosen with probability P(𝐴). アクションAとBの間、前者は確率P(A)で選択される。 0.79
The plot shows average cumulative rewards over trajectories of different length. プロットは、異なる長さの軌道に対する平均累積報酬を示す。 0.70
The best results are observed for balanced exploration P(𝐴) = 0.5. 最良の結果は、バランスの取れた探査P(A) = 0.5のために観察される。 0.60
6.1 Competing ML approaches For a given state vector in the feature space, an ML model can (𝑖) predict rewards for each action via Supervised Learning or (𝑖𝑖) estimate Q-values via offline Reinforcement Learning (Section 3). 6.1 MLアプローチの競合 機能空間における与えられた状態ベクトルに対して、MLモデルは(i)監視学習または(ii)オフライン強化学習(Section3)を介して、各アクションに対する報酬を予測することができる。 0.76
Generally, Reinforcement Learning offers two important advantages: 一般的に強化学習には2つの大きな利点がある。 0.53
mized to improve state coverage. 状態カバレッジを改善するためにmized。 0.57
• RL exploration policies are linked to exploitation and opti• Long-term cumulative objectives, e.g., user engagement, can be optimized by RL even when they are not faithfully represented by immediate rewards for each action (Figure 3). •RL探索ポリシーは、利用とオプティマイゼーションに関連付けられている• ユーザエンゲージメントなどの長期累積目標は、各アクションに対する即時報酬が忠実に表現されない場合でも、RLによって最適化することができる(図3)。 0.76
The impact of the exploration level of behavioral policies in offline RL is illustrated in Figure 4 that is produced for the motivational example from Section 5.1. オフラインrlにおける行動ポリシーの探索レベルの影響は、図4で示され、第5.1節から動機づけられた例のために作成されます。
訳抜け防止モード: オフラインRLにおける行動ポリシーの探索レベルの影響を図4に示す。 第5.1節からモチベーション的な例のために作成されます。
0.69
Here we compare (behavioral) exploration policies defined by the complementary probabilities of Actions A and B. ここでは,行動AとBの相補的確率によって定義される(行動)探索政策を比較した。 0.68
Specifically, using the induced state transitions and corresponding rewards as a static dataset, we train offline an RL model for each behavioral policy (Section 3) through an established offpolicy algorithm (DQN). 具体的には、誘起状態遷移と対応する報酬を静的データセットとして使用し、確立されたオフポリシーアルゴリズム(DQN)を通じて各行動方針(第3節)のRLモデルをオフラインでトレーニングします。 0.74
Intuitively, balanced exploration with equal probabilities should provide better state coverage. 直感的に、等しい確率でバランスの取れた探索は、より良い状態カバレッジを提供するべきです。 0.45
Indeed, this is observed in our simulation. 実際、これは我々のシミュレーションで観察されている。 0.70
In the figure, we project state vectors from the feature space onto two principal components (via PCA). 図では、特徴空間から状態ベクトルを(PCAを介して)2つの主要なコンポーネントに投影します。 0.77
The yellow (70:30) and red (90:10) point clouds are narrower than the blue (50:50) point cloud. 黄 (70:30) と赤 (90:10) の点雲は青 (50:50) の点雲より狭い。 0.81
Furthermore, Figure 5 shows that exploration diversity in the behavioral policy helps train a better model. さらに、図5は、行動ポリシーにおける探索の多様性がより良いモデルをトレーニングするのに役立ちます。 0.66
In other words, during the evaluation phase, we can expect higher perceived returns (cumulative rewards) for the RL model trained offline with balanced exploration. 言い換えれば、評価段階では、バランスの取れた探索でオフラインで訓練されたRLモデルに対するより高い認識リターン(累積報酬)が期待できます。 0.69
Such evaluation is performed on users not seen in the training dataset and by using the trained RL model as a decision mechanism that drives the state transitions. このような評価は、トレーニングデータセットに見られないユーザや、トレーニングされたRLモデルを状態遷移を駆動する決定メカニズムとして使用することで行われる。 0.72
The impact of behavioral policies’ exploration is related to the distributional shift phenomemon discussed in Section 3. 行動政策の探究の影響は,第3節で論じられた分布シフト現象に関係している。 0.77
The higher the state coverage in the training dataset, the less significant the state distributional shift during evaluation and action distributional shift during training for an Offline RL model. トレーニングデータセットの状態カバレッジが高くなればなるほど、評価中の状態分布シフトやオフラインRLモデルのトレーニング中の動作分布シフトは少なくなる。 0.75
Modeling forward sequential depth (i.e., the future impact of current actions) is difficult for supervised learning. 教師付き学習では,逐次的深さ(すなわち現在の行動の将来の影響)のモデリングが困難である。 0.64
Modeling backward sequential depth (the impact of past actions) is somewhat easier, using additional features that summarize past states and actions. 過去の状態とアクションをまとめた追加機能を使用して、後方のシーケンシャル深度(過去のアクションの影響)をモデリングするのはやや簡単です。 0.64
Furthermore, reinforcement learning often suffers from high variance in rewards and statistical bias in explored states. さらに、強化学習はしばしば、探索された州の報酬と統計的バイアスの高いばらつきに苦しむ。
訳抜け防止モード: さらに、強化学習はしばしば報酬のばらつきに悩まされる 調査された州の統計バイアスです
0.75
Despite obvious limitations, supervised learning (SL) remains a 明確な制限にもかかわらず、教師付き学習(SL)はそのままです。 0.48
viable competitor to RL because RL の競争相手です。 0.69
• SL often facilitates more mature optimization methods • SL can train higher-quality models faster due to smaller SLはしばしばより成熟した最適化方法を容易にします • SLはより小さいため、高品質のモデルをより速くトレーニングできます。 0.55
variances and greater learning rates. ばらつきと学習率の上昇です 0.74
Therefore, to empirically evaluate our proposed RL method, Section 7 compares it to a production system trained with supervised learning. したがって,提案手法を実験的に評価するために,第7節では教師付き学習で学習した生産システムと比較する。 0.69
Among different RL techniques, model-based RL (tree search, etc), runs into difficulties predicting state transitions based on actions and corresponding rewards (environment dynamics). 異なるRL技術の中で、モデルベースのRL(ツリーサーチなど)は、アクションと対応する報酬(環境ダイナミクス)に基づいて状態遷移を予測する困難に陥ります。 0.73
6.2 RL decision models Given the large state space in our application, we model the Qfunction by a neural net. 6.2 RL決定モデルアプリケーション内の大きな状態空間を考えると、Q関数をニューラルネットワークでモデル化する。 0.83
The values of the trained 𝑄(𝑠𝑡 , 𝑎𝑡 ; 𝜃) express accumulated rewards (Equation 8) for Actions A, B based on user features for a given state. 訓練を受けたQ(st , at .)の値には、ある状態のユーザ機能に基づいて、アクションA,Bに対する累積報酬(Equation 8)が表される。 0.83
We perform training offline on a static dataset of state transitions using the DQN algorithm. DQNアルゴリズムを用いて静的な状態遷移データセット上でオフラインでトレーニングを行う。 0.85
As a result, the task of learning a near-optimal Q-function is transformed into a familiar regression problem for Equation 7. その結果、近似q関数を学習するタスクは、方程式7の親しみやすい回帰問題に変換される。 0.74
A learned near-optimal Q-function supports a decision mechanism that selects Action A or B based on current user features to maximize accumulated rewards. 学習された近最適Q関数は、現在のユーザー機能に基づいてアクションAまたはBを選択する決定メカニズムをサポートし、累積報酬を最大化します。 0.64
The use of Temporal Difference (Equation 7) as the loss function is a key distinction from supervised learning. 時間差(列7)を損失関数として用いることは教師付き学習との重要な区別である。 0.76
The implied use of the Bellman equation is what allows this approach to track long-term rewards. ベルマン方程式の暗黙的な使用は、このアプローチが長期的な報酬を追跡することを可能にするものです。
訳抜け防止モード: ベルマン方程式の暗示的な使用は このアプローチで長期の報酬を追跡することができます。
0.68
Our implementation (Section 7) makes it easy to try more sophisticated RL models and algorithms with the same state model and rewards (Section 5.2). 我々の実装(Section 7)により、より洗練されたRLモデルとアルゴリズムを同じ状態モデルと報酬で簡単に試すことができる(Section 5.2)。 0.72
In fact, we have tried several improvements to DQN (such as DDQN, Dueling DQN) and concluded that DQN 実際、DQN(DDQN、Dueling DQNなど)のいくつかの改善を試み、DQNを結論付けました。 0.86
202530354045Num. 202530354045Num。 0.82
State Transitions101520253 0Average Cumulative RewardP(a)=0.1P(a)=0.3P(a)=0.5P(a)=0.7P(a)=0.9 状態遷移1015202530 Average Cumulative RewardP(a)=0.1P(a)=0.3P(a)=0.5P(a)=0.7P(a)=0.9 0.63
英語(論文から抽出)日本語訳スコア
does not leave much room for improvement despite being simpler. シンプルさにもかかわらず 改善の余地は多くありません 0.69
However, more techniques that parameterize both the policy and the Q-function are generally worth trying. しかし、ポリシーとq関数の両方をパラメータ化する技術は一般に試す価値がある。 0.75
Whether or not this improves long-term objectives is unclear a priori, and we therefore implement a recent technique in this category. この手法が長期的目標を改善するかどうかは未定であり,近年の手法が適用されている。 0.67
Critic-Regularized Regression (CRR) [39] is an off-policy method that discourages sampling low-quality actions from the training dataset. Critic-Regularized Regression (CRR) [39] は、トレーニングデータセットから低品質のアクションをサンプリングするのを妨げるオフポリシメソッドです。 0.76
As it is typical for actor-critic algorithms, CRR parameterizes both the policy and the Q-function [16]. アクター批判アルゴリズムの典型として、CRRはポリシーとQ-関数の両方をパラメータ化する [16]。 0.79
It additionally transforms Q-values in the objective (Equation 1) with a monotonically increasing function, such as exp(·), to emphasize higher Q-values. また、目的(方程式1)のQ値をexp(·)のような単調に増加する関数で変換し、より高いQ値を強調する。 0.76
This way, during policy update, 𝜋 more often samples high-quality actions within the training distribution. このように、ポリシー更新の間、πはトレーニング分布内の高品質なアクションをサンプリングすることが多い。 0.55
The critic is trained using distributional Q-learning [4, 39]. 批評家は分布型q-learning[4, 39]を用いて訓練される。 0.63
The distributional representation of the returns translates well into stochastic behavioral policies. リターンの分布表現は確率的行動ポリシーによく翻訳される。 0.70
6.3 Preparing data for training Each row of our training data includes user features, actual system actions, and rewards. 6.3 トレーニングデータの準備 当社のトレーニングデータの各行には、ユーザー機能、実際のシステムアクション、および報酬が含まれます。 0.74
Data extraction. Motivated by the impact of the exploration level of behavioral policies in Offline RL (Section 6.1) we choose equal probabilities for Actions A and B. データ抽出。 オフラインRLにおける行動政策の探索レベルの影響(第6章)により,行動AとBに等しい確率を選択する。 0.76
Thus, upon a failed login attempt, an action is chosen at random. これにより、ログインが失敗すると、ランダムにアクションが選択される。 0.72
Another handler starts extracting and computing user features simultaneously. 別のハンドラが同時にユーザ機能の抽出と計算を開始します。 0.60
The two asynchronous events are tagged with the same unique ID and joined by a stream processing system for logging in the training table. 2つの非同期イベントは同じユニークなidでタグ付けされ、トレーニングテーブルにロギングを行うストリーム処理システムと結合される。 0.79
The user engagement metric and the sum of OTP fees are computed by the end of the day. ユーザーのエンゲージメントメトリックとOTP手数料の合計は、一日の終わりまでに計算されます。 0.79
These rewards are joined with the training table based on an anonymized user ID column, where rewards are attributed to the last login failure event of the day (see Figure 3). これらの報酬は、匿名化されたユーザーID列に基づいてトレーニングテーブルと結合され、報酬はその日の最後のログイン失敗イベントに起因します(図3参照)。 0.72
We logged data using the described exploratory behavioral policy for a time period of three weeks. 3週間の期間、前述の探索行動方針を使用してデータを記録しました。 0.69
Data augmentation. Following the standard Markov Decision Process (MDP) framework, RL models are trained on consecutive pairs of state/action tuples that correspond to state transitions in user sequences (Figure 2). データ拡張。 標準的なマルコフ決定プロセス(MDP)フレームワークに従って、RLモデルは、ユーザシーケンスの状態遷移に対応する一連の状態/動作タプルに基づいてトレーニングされる(図2)。 0.74
We use the open-source applied Reinforcement Learning platform ReAgent (Horizon) [9] to transform logged state-action-reward data to the following row format: オープンソースのApplied Reinforcement LearningプラットフォームReAgent(Horizon)[9]を使用して、記録されたステートアクション報酬データを次の行形式に変換します。
訳抜け防止モード: オープンソースのReinforcement Learning Platform ReAgent (Horizon ) [9] to transform logged state - action - reward data to the following row format:
0.80
of the current step. tem took the action logged. 現在のステップの。 temはそのアクションを記録した。 0.62
rent step. Decision Process chain. ステップを貸して 意思決定プロセスチェーン。 0.65
state in the MDP, e.g., the timestamp of the state. mdpの状態、例えば、状態のタイムスタンプ。 0.51
• MDP ID: a unique id, e.g., anonymized user ID, for the Markov • Sequence Number: a number representing the depth of the • State Features: the user features for state representation • Action: the actual system action. MDP ID:Markov •シーケンス番号の匿名化されたユーザーID: •ステート機能の深さを表す番号:ステート表現のユーザー機能 •アクション:実際のシステムアクション。
訳抜け防止モード: MDP ID : 匿名化されたユーザー ID など、一意の i d です。 for the Markov • Sequence Number : the depth of the • State Features : the user features for state representation • Action : the actual system action ...
0.83
• Action Probability: the probability that the current sys• Metrics: user engagement metric and the sum of OTP fees. •アクション確率:現在のsysの確率•メトリック:ユーザエンゲージメントメトリックとOPP手数料の合計。 0.70
• Possible Actions: an array of possible actions at the cur• Next State Features: the user features for state represen• Next Action: the actual system action at the next step. • 可能なアクション: カーで可能なアクションの配列 • 次の状態機能: 状態の再送のためのユーザ機能• 次のアクション: 次のステップでの実際のシステムアクション。 0.87
• Sequence Number Ordinal: a number representing the depth of the state in the MDP after converting the Sequence Number to an ordinal number. •シーケンス番号 順序番号:シーケンス番号を順序番号に変換した後、MDP内の状態の深さを表す数字。 0.80
tation of the subsequent step. その後のステップのtation。 0.70
Apostolopoulos et al. Apostolopoulos et al。 0.81
• Time Diff: a number representing the time difference be• Possible Next Actions: an array of actions that were • 時間ディフ: 時間差を表す数• 次のアクションの可能性: アクションの配列。 0.72
tween the current and next state. 現在の状態と次の状態です。 0.64
possible at the next step. 次のステップで可能。 0.67
The metrics map enables reward shaping for Equation 8 by tuning 𝑤𝑢, 𝑤𝑐 during training. メトリクスマップは、トレーニング中にwu, wcを調整することで、Equation 8の報酬形成を可能にする。
訳抜け防止モード: メトリクスマップは 8等式に対する報酬シェーピング wcのwuを練習中にチューニングする。
0.66
Offline RL training is enabled by preprocessing logic for the row format above. オフラインrlトレーニングは、上記の行フォーマットのプリプロセッシングロジックによって有効になる。 0.70
7 EMPIRICAL EVALUATION To evaluate ML techniques from Section 6, our workflow first assesses quality of RL models trained offline. 7 EMPIRICAL Assessment 第6節からML手法を評価するために,我々のワークフローはまずオフラインでトレーニングされたRLモデルの質を評価する。 0.62
Hyperparameter tuning is performed based on offline metrics. ハイパーパラメータチューニングはオフラインメトリクスに基づいて実行される。 0.64
For the best seen RL model, online evaluation on live data helps us compare to a baseline production solution that uses SL. 最もよく見られるRLモデルでは、ライブデータに対するオンライン評価は、SLを使ったベースライン生産ソリューションと比較するのに役立ちます。 0.70
Our evaluation methodology and especially the metrics are applicable beyond this work. 私たちの評価方法論と特にメトリクスは、この作業を超えて適用されます。 0.56
7.1 Offline training and evaluation for RL To support decision models from Section 6.2, we train our DQN model using the ReAgent (Horizon) platform [9] and its default neural network architecture. 7.1 RLのオフライントレーニングと評価 第6章2から決定モデルをサポートするために、ReAgent(Horizon)プラットフォーム [9]とデフォルトのニューラルネットワークアーキテクチャを使用してDQNモデルをトレーニングする。 0.79
We set the discount factor to 𝛾 = 1.0 because most MDP sequences are short (80% of them have a single step). ほとんどのmdpシーケンスが短いため、ディスカウント係数を γ = 1.0 に設定した(その80%は1つのステップを持っている)。
訳抜け防止モード: 私たちは割引係数を γ = 1.0 に設定した。 ほとんどのMDPシーケンスは短い(80%は1ステップしか持たない)。
0.75
Equation 8 is used for the reward function. 報酬関数には方程式8が用いられる。 0.81
Offline RL training minimizes Temporal Difference loss (Equation 7) over the provided static dataset of transitions (Section 6.3). オフラインRLトレーニングは、提供された遷移の静的データセットに対する時間差損失(方程式7)を最小限にする(Section 6.3)。 0.64
Figure 6 shows how loss values for the DQN RL model (Section 6.2) change over training epochs that consist of mini-batches (iterations). 図6は、DQN RLモデルの損失値が、ミニバッチ(図)からなるトレーニングエポックよりもどのように変化するかを示している。 0.70
To avoid overfitting, we split the static dataset of transitions into a training and test set, then compare the average Q-values of the same Actions A, B between the training and test sets, and keep the differences below 10%. 過度な適合を避けるため、私たちは移行の静的データセットをトレーニングとテストセットに分割し、同じActions A, Bの平均Q値とトレーニングとテストセットを比較し、差を10%以下に保った。 0.68
Offline evaluation avoids the dangers of poorly trained policies in production. オフライン評価は、プロダクションにおける訓練不足のポリシーの危険性を避ける。 0.60
Additionally, it uses a static dataset for consistent experimentation and performance tuning. さらに、一貫した実験とパフォーマンスチューニングに静的データセットを使用する。 0.72
To watch out for deficient training and distributional shifts (Section 3), our evaluation methodology pays particular attention to training quality metrics. 訓練不足と分布シフト(第3部)に注意を払うため,本評価手法は,品質指標の訓練に特に注意を払っている。 0.72
• The Temporal Difference Ratio addresses a pitfall in using raw Temporal Difference (TD) loss (Equation 7), which is sensitive to the magnitude of Q-values. • 時間差比は、Q値の大きさに敏感な生時間差(TD)損失(方程式7)の使用における落とし穴に対応します。 0.79
A poor RL model will exhibit low TD values when Q-values are low. 悪いRLモデルはQ値が低い場合に低いTD値を示す。 0.80
Instead, min{ ¯𝑄𝐴, ¯𝑄𝐵 } , where ¯𝑄𝐴, ¯𝑄𝐵 are the we evaluate the metric average Q-values of Actions A, B over the training dataset. 代わりに min{ >QA, >QB } とすると、トレーニングデータセットよりも >QA, >QB が平均的な行動 A, B の平均 Q-値を評価する。 0.65
TD Figure 6: Temporal Difference loss (MSE) with respect to learning epochs for the DQN RL model (Section 6.2). TD 図6: DQN RLモデルの学習の進歩に関する時間差損失(MSE)。 0.70
英語(論文から抽出)日本語訳スコア
Personalization for Web-based Services using Offline Reinforcement Learning オフライン強化学習によるwebサービスのパーソナライズ 0.81
• Distributional stability during training is vital to effective learning. ・訓練中の分布安定性は効果的な学習に不可欠である。 0.64
The action distribution of the trained offline RL model should not shift too far from the behavioral policy, which we measure as the KL-divergence [12] between the RL model’s learned policy and the behavioral policy function. 訓練されたオフラインRLモデルの行動分布は、RLモデルの学習したポリシーと行動方針関数の間にKL-ダイバージェンス[12]として測定する行動ポリシーからあまり遠くにシフトすべきではありません。 0.83
The action distribution of our DQN model in Figure 7 stabilizes over training. 図7のDQNモデルの動作分布は、トレーニング時に安定化する。 0.80
The change of the action distribution over a time window (25 training iterations) is a good proxy for the distributional stability for offline RL models. 時間ウィンドウ上での動作分布の変化(25のトレーニングイテレーション)は、オフラインのRLモデルに対する分布安定性のよいプロキシである。 0.83
Counterfactual Policy Evaluation (CPE) with respect to perceived accumulated reward is the second tier of our evaluation methodology. 認識された累積報酬に対する対物政策評価(CPE)は、評価手法の第2段階です。 0.82
CPE is performed offline (because our RL model is trained offline) and off-policy because it uses a static dataset of transitions D𝜋𝛽 , logged by the behavioral policy 𝜋𝛽. CPEは(我々のRLモデルはオフラインで訓練されているため)オフラインで実行される。
訳抜け防止モード: cpeはオフラインで実行されます (rlモデルはオフラインでトレーニングされているため) -遷移dπβの静的データセットを使用するポリシ。 行動政策 πβ によって記録される。
0.61
The key idea is to answer counterfactual questions of the form: “how probable would it be for the offline policy to encounter/perceive same state transitions/rewards as the logged ones?". 重要なアイデアは、フォームの反事実的な質問に答えることです:「オフラインポリシーが記録されたものと同じ状態遷移/報酬に遭遇/知覚する可能性はどの程度ですか? 0.68
To this end, CPE provides a safe way of ranking different offline RL models before they are tested in production. この目的のために、CPEは、製品でテストされる前に、異なるオフラインRLモデルをランキングする安全な方法を提供します。 0.61
Off-policy evaluation can be based on ordinary importance sampling [25], but at risk of high variance which grows exponentially with the number of state transitions. オフポリシー評価は通常の重要度サンプリング [25] に基づいているが、状態遷移数で指数関数的に増加する高いばらつきのリスクがある。 0.79
More sophisticated methods [34] provide controlled bias-variance tradeoffs by utilizing additional information, e.g., the learned Q-function. より洗練された手法[34]は、学習したQ関数などの追加情報を利用してバイアス分散トレードオフを制御する。 0.63
In our application, relatively short MDP sequences make it practical to use the sequential doubly robust estimator [13] to produce unbiased performance estimates for policies trained offline. 本アプリケーションでは、比較的短いMDPシーケンスを用いて、オフラインでトレーニングされたポリシーに対する非バイアスな性能推定を行うために、シーケンシャルな2倍頑健な推定器[13]を実用化する。 0.59
Hyperparameter optimization for Offline RL is challenging [23], as there is no access to the environment. 環境へのアクセスがないため、オフラインRLのハイパーパラメータ最適化は[23]難しいです。 0.83
Hyperparameters can be optimized toward the metrics in our two-tier offline evaluation above, after which the best seen models can be evaluated online. ハイパーパラメータは、上記の2段階のオフライン評価でメトリクスに最適化され、その後、最もよく見られるモデルをオンラインで評価できます。 0.65
For example, parameters for training, such as the learning rate, can be optimized via the first tier, whereas the second tier can compare different RL algorithms. 例えば、学習率などのトレーニング用のパラメータは、第1層を介して最適化できるが、第2層は異なるRLアルゴリズムを比較することができる。 0.85
Our DQN model (Figures 6 and 7) exhibited the best results in offline evaluation, was deployed online and evaluated vs. SL baseline production system (Section 7.2). DQN モデル (図6, 7) はオフライン評価において最高の結果を示し, オンラインに展開し, SL ベースライン生産システムと比較して評価を行った。 0.81
7.2 Empirical comparisons Our baseline using supervised learning is a prior production model with a tree-based meta-learner that estimates the Conditional Average Treatment Effects [18]. 7.2 経験的比較 教師付き学習を用いたベースラインは、条件付き平均的治療効果を推定するツリーベースのメタリーナーを備えた先行生産モデルです[18]。 0.74
The treatment effects are represented by a linear combination of the rewards defined in Equation 8. 処理効果は方程式8で定義された報酬の線形結合で表される。 0.77
The meta-learner decomposes the decision process into two steps by first estimating the conditional reward expectations, メタ学習者は、まず条件付き報酬期待を推定し、決定プロセスを2つのステップに分解します。 0.53
Figure 7: Changes in action distributions for Actions A, B over learning epochs for the DQN RL model (Section 6.2). 図7: DQN RLモデル(第6.2)の学習時代におけるアクションA,Bの行動分布の変化。 0.83
Table 1: SL and RL policies are compared online to fixed policies that always perform Action A or Action B. RL provides the most attractive tradeoffs, shown in bold. 表1:SLおよびRLポリシーは、常にアクションAまたはアクションBを実行する固定ポリシーと比較されます。RLは、大胆に示す最も魅力的なトレードオフを提供します。 0.62
User engagement ユーザエンゲージメント 0.65
OTP cost Policy Daily OTPコスト 政策 毎日 0.76
- Monthly - B A SL RL - 毎月 - B A SL RL 0.81
+120% ± 4.16% +1.49% ± 0.273% +81.1% ± 3.13% +1.35% ± 0.212% +1.50% ± 0.213% +2.55% ± 0.183% +70.3% ± 2.96% +120% ± 4.16% +1.49% ± 0.273% +81.1% ± 3.13% +1.35% ± 0.212% +1.50% ± 0.213% +2.55% ± 0.183% +70.3% ± 2.96% 0.61
+2.81% ± 0.279% +2.58% ± 0.116% +2.81% ± 0.279% +2.58% ± 0.116% 0.62
- 𝑈 = E[UE | 𝑎𝑡 , 𝑠 = 𝑠𝑡], 𝐶 = E[Cost | 𝑎𝑡 , 𝑠 = 𝑠𝑡], where 𝑎𝑡 ∈ 𝐴. 𝑈 and 𝐶 are computed using Gradient Boosted Decision Trees whose parameters, including learning rate, tree depth and tree leaves, are swept in a large range to minimize mean squared errors. - U = E[UE | at , s = st], C = E[Cost | at , s = st] ここでは、U と C は、学習率、木の深さ、木の葉などのパラメータが、平均二乗誤差を最小限に抑えるために、広い範囲に散在するグラディエントブースト決定木を用いて計算される。 0.82
Then the learner takes the differences between the estimates and chooses the action that gives the highest reward: その後、学習者は見積もりの違いを取り、最高の報酬を与えるアクションを選択します。 0.65
𝑎𝑡 = arg max at = arg max 0.85
𝑎𝑡 ∈𝐴 E[𝑟𝑡|𝑎𝑡 , 𝑠 = 𝑠𝑡] 𝑎𝑡 ∈𝐴 E[rt|at , s = st] 0.92
After deriving 𝑟𝑡 using Equation 8, the final action is given by Equation 8 を用いて rt を導出した後、最終的な動作は、 0.74
𝑎𝑡 = arg max at = arg max 0.85
𝑎𝑡 ∈𝐴 (𝑤𝑢 · 𝑈 − 𝑤𝑐 · 𝐶) 𝑎𝑡 ∈𝐴 (𝑤𝑢 · 𝑈 − 𝑤𝑐 · 𝐶) 0.87
(9) (10) The reward weights 𝑤𝑢 and 𝑤𝑐 are chosen through online experiments to ensure compelling multiobjective tradeoffs. (9) (10) 報酬重量wuとwcは、魅力的な多目的トレードオフを保証するためのオンライン実験を通じて選択される。 0.72
Online evaluation is performed using one-month’s data. オンライン評価は1ヶ月のデータを使って行われる。 0.70
Table 1 demonstrates the first round of results at a 95% confidence level, where our RL model is trained on randomized data as per Section 6.3. 表1は95%の信頼レベルでの最初のラウンドを示し、RLモデルはセクション6.3のようにランダム化されたデータに基づいて訓練される。 0.75
The RL model is compared to fixed policies (the same action repeated always) and a prior production model based on SL. RLモデルは、固定ポリシー(常に同じアクションを繰り返します)とSLに基づく以前の生産モデルと比較されます。 0.79
The RL model significantly reduces OTP costs while exhibiting competitive daily and monthly user engagement results. RLモデルは、競争的な毎日および毎月のユーザーエンゲージメント結果を示しながら、OTPコストを大幅に削減します。 0.59
We estimate Return On Investment (ROI) by dividing total cost by total monthly engagement. 投資収益率(ROI)は、合計月々のエンゲージメントで総コストを割って推定します。 0.67
RL outperforms SL by 5.93% ± 0.782%. RLはSLを5.93%± 0.782%上回る。 0.61
To collect data for recurrent training, we deploy our RL agent by extending the deterministic policy to an 𝜖-greedy policy with 𝜖 = 0.1. 繰り返し学習のためのデータ収集には, ε = 0.1 の ε-greedy ポリシに決定論的ポリシーを拡張して RL エージェントをデプロイする。 0.68
When ML is applied to practical problems, it commonly optimizes surrogate objectives, and one has to empirically check that practical objectives are improved as a result. MLが実用的な問題に適用されると、一般的に代理目的を最適化し、結果として実用的な目的が改善されることを実証的に確認する必要があります。 0.54
Moreover, sophisticated applications often track multiple performance metrics whose regressions may block new optimization. さらに、洗練されたアプリケーションは、回帰が新しい最適化をブロックする可能性のある複数のパフォーマンスメトリクスを追跡することが多い。 0.48
In our case, one such metric counts notification disavow events (NDEs) for password reset, where a user turns off notifications, perhaps because there were too many. 私たちの場合、そのようなメトリクスは、パスワードリセットのための通知無効イベント(ndes)をカウントします。
訳抜け防止モード: 私たちの場合、そのようなメトリックはパスワードリセットの通知不可イベント(NDE)をカウントします。 ユーザーが通知をオフにするのは 多すぎるからです
0.75
Comparing to SL, we observe that RL reduces NDEs by 50%. SLと比較して、RLはNDEを50%削減する。 0.73
To this end, Table 2 shows that the RL agent trades off Action A for Action B and thus reduces authentication messages, while maintaining neutral engagement metrics. この目的のために、テーブル2は、RLエージェントがアクションBのためのアクションAをトレードオフし、中立なエンゲージメントメトリクスを維持しながら認証メッセージを減らすことを示す。 0.72
We also group users into cohorts — single-login users and multiple-login users (within the また、ユーザーをコホート(シングルログインユーザーと複数ログインユーザー)に分類する。 0.66
Table 2: Action distributions (% of Action A) for behavioral policies trained with SL and RL by user cohort. 表2: ユーザのコホートによりSLとRLで訓練された行動ポリシーに対する行動分布(アクションAの%)。 0.80
RL SL All users Single-login users Multiple-login users RL SL 全ユーザー シングルログインユーザー 複数ログインユーザー 0.86
55.88% 22.75% 60.16% 36.41% 49.40% 11.19% 55.88% 22.75% 60.16% 36.41% 49.40% 11.19% 0.61
英語(論文から抽出)日本語訳スコア
Apostolopoulos et al. Apostolopoulos et al。 0.81
agents in production. 生産中のエージェント。 0.75
However, this approach requires careful extraction and augmentation of training data to ensure that off-policy learning does not succumb to distributional shift. しかし、このアプローチでは、分散シフトに支障を来さないよう、トレーニングデータの注意深く抽出と強化が必要となる。 0.64
In practice, RL is often susceptible to high variance and high bias at several of its stages, especially when operating on large-scale live data. 実際にrlは、特に大規模ライブデータで運用する場合、いくつかの段階で高い分散と高いバイアスに影響を受けやすい。 0.61
Fortunately, our method is sufficiently robust for production deployment using the ReAgent (Horizon) platform [9]. 幸いにも,本手法は試薬(horizon)プラットフォーム [9] を用いた実運用に十分頑健である。 0.72
Starting from state modeling and data collection, we articulate obstacles and milestones toward model training and demonstrate practical improvement in end-to-end system-level metrics at a large-scale deployment at Facebook. 状態モデリングとデータ収集から始め、モデルトレーニングへの障害とマイルストーンを明確化し、facebookにおける大規模デプロイメントにおけるエンドツーエンドシステムレベルのメトリクスの実践的改善を実証する。 0.70
During development, we use a simplified problem environment to test intuition without sensitive data. 開発中は,簡易な問題環境を用いて,センシティブなデータを用いずに直観をテストした。 0.60
Broader applications. より広いアプリケーション。 0.75
Our self-contained didactic application is not only critical to many Web-based systems, but also generalizes well (e.g., to more than two actions at a time) and illustrates how other aspects of Web-based systems can be personalized and enhanced via ML. 私たちの自己完結型ドクティカルアプリケーションは、多くのWebベースシステムにとって重要なだけでなく、(例えば、一度に2つのアクションに)うまく一般化し、Webベースのシステムの他の側面がMLを介してパーソナライズされ、拡張可能であることを示す。 0.65
Relevant optimizations explored previously include 以前に調べた関連最適化 0.65
• personalized individual user notifications [9], • page prefetching to optimize user experience [37]. •パーソナライズされた個々のユーザ通知 [9], • ユーザエクスペリエンスを最適化するためのページプリフェッチ [37]。 0.85
User notifications and product delivery must balance utility with distraction, while page prefetches improve access latency at the cost of increased network bandwidth. ユーザ通知と製品配信は、ネットワーク帯域幅の増大によるアクセスレイテンシの向上に対して、ユーティリティと障害のバランスをとる必要がある。 0.66
These applications bear structural similarity to our work and share several salient aspects. これらのアプリケーションは、私たちの仕事と構造的類似性を持ち、いくつかの健全な側面を共有します。 0.41
(1) At each step, the system chooses from several actions. 1) 各ステップにおいて、システムは複数のアクションから選択する。 0.81
Future decisions are improved based on user feedback. 未来 ユーザーのフィードバックに基づいて決定が改善されます。 0.69
(2) One must optimize and/or balance long-term cumulative objectives, some of which do not reduce to rewards for individual actions that can be handled by supervised learning. 2) 長期累積目標の最適化及び/又はバランスを行なわなければならないが,その一部は指導的学習によって処理できる個別の行動に対する報酬に還元されない。 0.75
(3) Personalization is based on a number of user features and (3)パーソナライゼーションは,多数のユーザ特徴と特徴に基づく。 0.82
can be supported by ML models in the feature space. 機能空間の ML モデルでサポートできます。 0.67
More general RL methods. より一般的なRLメソッド。 0.77
Our straightforward RL model (DQN) is facilitated by the small action space, which (𝑖) is less demanding in terms of learning robustness, and (𝑖𝑖) allows for simpler neuralnet representations where separate outputs produce 𝑄(𝑠, 𝑎) values for different actions 𝑎. 我々の単純なRLモデル(DQN)は、(i)学習の堅牢性において要求の少ない小さなアクション空間によって促進され、(ii)別々の出力が異なるアクションaに対してQ(s,a)値を生成するより単純なニューラルネットワーク表現を可能にします。 0.77
However, the overall approach generalizes to more sophisticated settings and can be extrapolated to other personalized enhancements for Web-based systems as follows. しかし、全体的なアプローチはより洗練された設定に一般化し、webベースのシステムの他のパーソナライズされた拡張に補足することができる。 0.57
action rewards, but such predictions can be leveraged. 行動報酬はありますが このような予測は活用できます 0.58
• We use model-free RL without predicting future states and • Our extraction and handling of user features, as well as offline model-free training and the evaluation methodology are not tied to specific RL models. • 将来の状態を予測せずにモデルフリーRLを使用し, • ユーザ機能の抽出と処理, オフラインモデルフリートレーニング, 評価手法は特定のRLモデルとは無関係である。 0.80
• Our use of the open-source ReAgent (Horizon) platform [9] makes it easy to employ models such as Double DQN [36] (DDQN) and Dueling DQN [40] that could provide a more stable learning for larger action spaces. • オープンソースのReAgent (Horizon) プラットフォーム [9] を使用することで,Double DQN [36] (DDQN) や Dueling DQN [40] といった,より大きなアクション空間に対してより安定した学習を可能にするモデルを簡単に採用できるようになります。 0.84
For very large or continuous action spaces, 𝑄(𝑠, 𝑎) can be modeled as a function of both 𝑠 and 𝑎 [21]. 非常に大きなあるいは連続な作用空間に対して、Q(s, a) は s と a[21] の両方の函数としてモデル化できる。 0.83
Continuous action spaces can be addressed using policy gradient methods [32], available in ReAgent. ReAgentで利用可能なポリシー勾配メソッド[32]を使って、連続的なアクション空間に対処できる。 0.74
Figure 8: Daily user engagement of a recurrent CRR model 図8:反復的crrモデルの日々のユーザーエンゲージメント 0.80
evaluation period). Intuitively, multiple-login users are more likely to enter their password correctly without help from our authentication messages. 評価期間)。 直感的には、複数のログインユーザーは認証メッセージの助けなしにパスワードを正しく入力する傾向にある。 0.68
From Table 2, we see that both RL and SL make use of this user attribute but RL exploits it more efficiently Recurrent training and stability evaluation. 表2から、RLとSLはどちらもこの属性を利用するが、RLはより効率的にリカレントトレーニングと安定性評価を行う。 0.74
When user behaviors shift over time, ML models must be refreshed using the most recent data (recurrent training). ユーザの振る舞いが時間とともに変化すると、MLモデルは最新のデータ(繰り返しトレーニング)を使用してリフレッシュされなければなりません。 0.61
The initial RL model trained on randomized data shows sizable improvements. ランダム化されたデータで訓練された初期のRLモデルは、大幅に改善された。 0.51
However, continued collection of randomized data is risky in terms of direct costs and user experience. しかし、ランダム化されたデータの継続的な収集は、直接的なコストとユーザーエクスペリエンスの観点から危険です。 0.61
The "Rand" policy (Section 6.1) in Table 3 suggests that its deployment limits the benefits of RL models. 表3の "Rand" ポリシー (Section 6.1) は、その展開が RL モデルの利点を制限することを示唆している。 0.75
Thus, we refresh the model using behavioral data collected from our RL agent. そこで我々は,RLエージェントから収集した行動データを用いてモデルを更新する。 0.73
Additionally, to check if recurrent training stabilizes in the long term compared with the initial RL model, we perform a second round of online evaluation to study recurrent training using RL behavioral data and model stability in the long term. さらに,リカレントトレーニングが初期RLモデルと比較して長期的に安定であるかどうかを確認するため,RLの行動データとモデル安定性を用いて2回目のオンライン評価を行い,長期にわたるリカレントトレーニングについて検討する。 0.78
We train a DQN and a CRR model (Section 6.2) with the same parameters and rewards as the initial RL model, but collect their training data via policies from the deployed RL agent. 我々は、初期RLモデルと同じパラメータと報酬を持つDQNとCRRモデル(Section 6.2)を訓練するが、デプロイされたRLエージェントからポリシーを介してトレーニングデータを収集する。 0.88
Results summarized in Table 3 use the same settings as before (a 95% confidence level, one-month’s testing window, and an 𝜖-greedy policy on DQN and CRR with 10% exploration rate). 表3でまとめられた結果は、以前と同じ設定(95%の信頼レベル、1ヶ月のテストウィンドウ、および10%の探査率でDQNとCRRに関するε学位ポリシー)を使用しています。 0.79
Both recurrent DQN and CRR give neutral results compared with the initial RL model, which indicates stable performance in recurrent training. リカレントDQNとCRRはどちらも、リカレントトレーニングにおける安定した性能を示す初期RLモデルと比較して中立的な結果を与える。 0.65
Figure 8 additionally shows daily user engagement for the CRR recurrent model vs. the initial RL model, and this also shows consistent performance. 図8は、CRRリカレントモデルと初期のRLモデルに対する毎日のユーザーエンゲージメントも示しており、これは一貫したパフォーマンスも示しています。 0.72
8 CONCLUSIONS In this work we show how to apply reinforcement learning (RL) to personalize user authentication in a Web-based system and compare RL to a competing approach based on supervised learning. 8 ConCLUSIONS 本研究では、Web ベースシステムにおけるユーザ認証のパーソナライズに強化学習(RL)を適用し、RL を教師付き学習に基づく競合するアプローチと比較する。 0.88
Working with industry data, using offline RL avoids releasing poorly trained 業界データを扱うオフラインRLは、トレーニング不足なリリースを避ける 0.81
Table 3: Recurrent training results compared with the initial RL agent trained on randomized data (the "Rand" policy issues Action A and Action B with equal probability). 表3: ランダム化データで訓練された最初のRLエージェントと比較して、繰り返しトレーニング結果(「ランド」ポリシーは、同じ確率でアクションAとアクションBを発行)。
訳抜け防止モード: 表3 : ランダム化データで訓練された初期rlエージェントと比較した反復訓練結果(「ランド」政策問題アクションa) そして、作用 b は等確率 ) である。
0.74
User engagement ユーザエンゲージメント 0.65
OTP cost Daily Policy DQN +0.0023% ±0.106% +0.0576% ±0.0841% -0.166% ±0.439% +1.27% ±2.87% CRR +3.78% ±3.29% Rand OTPコスト 毎日 政策 DQN +0.0023% ±0.106% +0.0576% ±0.0841% -0.166% ±0.439% +1.27% ±2.87% CRR +3.78% ±3.29% Rand 0.68
+0.116% ±0.240% -0.336% ±0.266% +0.116% ±0.240% -0.336% ±0.266% 0.50
+0.107% ±0.140% -0.693% ±0.162% +0.107% ±0.140% -0.693% ±0.162% 0.50
Monthly 毎月 0.68
英語(論文から抽出)日本語訳スコア
Personalization for Web-based Services using Offline Reinforcement Learning オフライン強化学習によるwebサービスのパーソナライズ 0.81
REFERENCES [1] Deepak Agarwal, Bo Long, Jonathan Traupman, Doris Xin, and Liang Zhang. References [1] Deepak Agarwal, Bo Long, Jonathan Traupman, Doris Xin, Liang Zhang 0.66
2014. LASER: A Scalable Response Prediction Platform for Online Advertising. 2014. LASER: オンライン広告のためのスケーラブルな応答予測プラットフォーム。 0.81
In Proc. 7th ACM International Conference on Web Search and Data Mining (New York, NY) (WSDM ’14). Proc。 第7回 ACM International Conference on Web Search and Data Mining (New York, NY) (WSDM ’14)。 0.69
ACM, New York, NY, 173–182. ACM, New York, NY, 173–182。 0.94
https://doi.org/10.1 145/ 2556195.2556252 [2] Rishabh Agarwal, Dale Schuurmans, and Mohammad Norouzi. https://doi.org/10.1 145/2556195.2556252 [2] Rishabh Agarwal, Dale Schuurmans, Mohammad Norouzi 0.70
2020. An Optimistic Perspective on Offline Reinforcement Learning. 2020. オフライン強化学習における最適視点 0.79
In Proc. 37th International Conference on Machine Learning (Proc. Proc。 第37回機械学習国際会議に参加して 0.66
Machine Learning Research, Vol. 機械学習研究、Vol。 0.69
119), Hal Daumé III and Aarti Singh (Eds.). ハル・ダウメ3世(Hal Daumé III)とアルティ・シン(Aarti Singh)。 0.54
PMLR, Virtual, 104–114. PMLR, Virtual, 104-114。 0.82
http: //proceedings.mlr.pr ess/v119/agarwal20c. html [3] Akshay Awasthi. http: //proceedings.mlr.pr ess/v119/agarwal20c. html [3] Akshay Awasthi 0.47
2015. Reducing Identity Theft Using One-Time Passwords and 2015. ワンタイムパスワードとID盗難の低減 0.80
SMS. EDPACS 52, 5 (2015), 9–19. SMS。 EDPACS 52, 5 (2015), 9–19。 0.85
[4] Gabriel Barth-Maron, Matthew W Hoffman, David Budden, Will Dabney, Dan Horgan, TB Dhruva, Alistair Muldal, Nicolas Heess, and Timothy Lillicrap. 4]Gabriel Barth-Maron氏、Matthew W Hoffman氏、David Budden氏、Will Dabney氏、Dan Horgan氏、TB Dhruva氏、Alistair Muldal氏、Nicolas Heess氏、Timothy Lillicrap氏。 0.76
2018. Distributed Distributional Deterministic Policy Gradients. 2018. 分散分布決定論的政策勾配。 0.79
[5] Richard Bellman. リチャード・ベルマン(Richard Bellman)。 0.70
1957. Dynamic Programming (1 ed.). 1957. 動的プログラミング(1 ed.)。 0.81
Princeton University [6] Gabriel Dulac-Arnold, Daniel Mankowitz, and Todd Hester. Princeton University [6] Gabriel Dulac-Arnold, Daniel Mankowitz, Todd Hester。 0.84
2019. Challenges of Press, Princeton, NJ, USA. 2019. 挑戦 プレス、プリンストン、NJ、米国。 0.66
Real-World Reinforcement Learning. arXiv:1904.12901 [cs.LG] 実世界強化学習。 arXiv:1904.12901 [cs.LG] 0.66
[7] Florent Garcin, Christos Dimitrakakis, and Boi Faltings. 7] Florent Garcin、Christos Dimitrakakis、Boi Faltings。 0.59
2013. Personalized News Recommendation with Context Trees. 2013. コンテキストツリーによるパーソナライズされたニュースレコメンデーション。 0.71
In Proc. 7th ACM Conference on Recommender Systems (Hong Kong, China) (RecSys ’13). Proc。 7th ACM Conference on Recommender Systems (Hong Kong, China) (RecSys ’13) 0.66
ACM, New York, NY, 105–112. ACM, New York, NY, 105–112。 0.94
https://doi.org/10.1 145/2507157.2507166 [8] Florent Garcin and Boi Faltings. https://doi.org/10.1 145/2507157.2507166 [8] Florent GarcinとBoi Faltings。 0.57
2013. PEN Recsys: A Personalized News Recommender Systems Framework. 2013. PEN Recsys: パーソナライズされたニュースレコメンダーシステムフレームワーク。 0.73
In Proc. 2013 International News Recommender Systems Workshop and Challenge (Kowloon, Hong Kong) (NRS ’13). Proc。 2013 International News Recommender Systems Workshop and Challenge (Kowloon, Hong Kong) (NRS ’13)。 0.67
ACM, New York, NY, 3–9. ACM, New York, NY, 3–9。 0.94
https://doi.org/10.1 145/2516641.2516642 [9] Jason Gauci, Edoardo Conti, Yitao Liang, Kittipat Virochsiri, Yuchen He, Zachary Kaden, Vivek Narayanan, and Xiaohui Ye. https://doi.org/10.1 145/2516641.2516642 [9] Jason Gauci, Edardo Conti, Yitao Liang, Kittipat Virochsiri, Yuchen He, Zachary Kaden, Vivek Narayanan, Xiaohui Ye 0.84
2018. Horizon: Facebook’s Open Source Applied Reinforcement Learning Platform. 2018. Horizon: FacebookのオープンソースのApplied Reinforcement Learning Platform。 0.83
CoRR abs/1811.00260 (2018), 10pp. CoRR abs/1811.00260 (2018), 10pp。 0.73
arXiv:1811.00260 http://arxiv.org/abs /1811.00260 [10] Balázs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. arXiv:1811.00260 http://arxiv.org/abs /1811.00260 [10] Balázs Hidasi、Alexandos Karatzoglou、Linas Baltrunas、Domonkos Tikk。 0.62
Session-based Recommendations with Recurrent Neural Networks. 繰り返しニューラルネットワークによるセッションベースの推奨。 0.71
2016. arXiv:1511.06939 [cs.LG] 2016 arXiv:1511.06939 [cs.LG] 0.56
[11] Daniel Sik Wai Ho, William Schierding, Melissa Wake, Richard Saffery, and Justin O’Sullivan. Daniel Sik Wai Ho氏、William Schierding氏、Melissa Wake氏、Richard Saffery氏、Justin O’Sullivan氏。 0.74
2019. Machine learning SNP based prediction for precision medicine. 2019. 精密医療のための機械学習SNPベースの予測。 0.82
Frontiers in Genetics 10 (2019), 267. The Frontiers in Genetics 10 (2019), 267。 0.80
[12] Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, and Rosalind Picard. 12] Natasha Jaques、Asma Ghandeharioun、Judy Hanwen Shen、Craig Ferguson、Agata Lapedriza、Noah Jones、Shixiang Gu、Rosalind Picard。 0.71
2019. Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog. 2019. way off-policy batch deep reinforcement learning of implicit human preferences in dialog(英語) 0.78
arXiv:1907.00456 [cs.LG] arXiv:1907.00456 [cs.LG] 0.53
[13] Nan Jiang and Lihong Li. [13] 南江とLihong Li。 0.63
2016. Doubly Robust Off-policy Value Evaluation for Reinforcement Learning. 2016. 強化学習のための強固なオフポリシー価値評価 0.80
In Proceedings of The 33rd International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 第33回機械学習国際会議(proceedings of machine learning research, vol.)の開催にあたって 0.85
48), Maria Florina Balcan and Kilian Q. Weinberger (Eds.). 48)、マリア・フローリーナ・バルカン(Maria Florina Balcan)、キリアン・Q・ワインベルガー(Kilian Q. Weinberger)。 0.45
PMLR, New York, NYA, 652–661. PMLR, New York, NYA, 652–661。 0.93
http://proceedings.m lr.press/v48/jiang16 .html http://proceedings.m lr.press/v48/jiang16 .html 0.26
[14] Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, and Sergey Levine. Dmitry Kalashnikov氏、Alex Irpan氏、Peter Pastor氏、Julian Ibarz氏、Alexander Herzog氏、Eric Jang氏、Deirdre Quillen氏、Ethan Holly氏、Mrinal Kalakrishnan氏、Vincent Vanhoucke氏、Sergey Levine氏。 0.73
2018. Scalable Deep Reinforcement Learning for VisionBased Robotic Manipulation. 2018. VisionBased Robotic ManipulationのためのスケーラブルなDeep Reinforcement Learning 0.85
In Proc. 2nd Conference on Robot Learning (Proc. Proc。 第2回ロボット学習会議(proc)に参加して 0.56
Machine Learning Research, Vol. 機械学習研究、Vol。 0.69
87), Aude Billard, Anca Dragan, Jan Peters, and Jun Morimoto (Eds.). 87)、Aude Billard、Anca Dragan、Jan Peters、Jun Morimoto (Eds.)。 0.61
PMLR, Virtual, 651–673. PMLR, Virtual, 651–673。 0.84
http://proceedings.m lr.press/v87/ kalashnikov18a.html http://proceedings.m lr.press/v87/ kalashnikov18a.html 0.31
[15] Ron Kohavi and Roger Longbotham. 15] Ron KohaviとRoger Longbotham。 0.71
2017. Online Controlled Experiments and A/B Testing. 2017. オンライン制御実験とA/Bテスト。 0.80
Encyclopedia of Machine Learning and Data Mining 7, 8 (2017), 922–929. Encyclopedia of Machine Learning and Data Mining 7, 8 (2017), 922–929。 0.87
[16] Vijay Konda and John Tsitsiklis. 16] Vijay Konda 氏と John Tsitsiklis 氏。 0.80
2000. Actor-Critic Algorithms. 2000. Actor-Critic Algorithms 0.86
In Advances in Neural Information Processing Systems, S. Solla, T. Leen, and K. Müller (Eds. ニューラル情報処理システムの進歩, S. Solla, T. Leen, K. Müller (Eds.) 0.78
), Vol. 12. )であった。 12. 0.67
MIT Press, Denver, CO, 1008–1014. MIT Press, Denver, CO, 1008–1014。 0.94
https://proceedings. neurips.cc/paper/ 1999/file/6449f44a10 2fde848669bdd9eb6b76 fa-Paper.pdf 1999/file/6449f44a10 2fde848669bdd9eb6b76 fa-Paper.pdf 0.18
[17] Aviral Kumar, Justin Fu, Matthew Soh, George Tucker, and Sergey Levine. Aviral Kumar氏、Justin Fu氏、Matthew Soh氏、George Tucker氏、Sergey Levine氏。 0.68
2019. Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction. 2019. ブートストラップエラー低減によるオフポリシQ-Learningの安定化 0.71
In Advances in Neural Information Processing Systems, H. Wallach, H. Larochelle, A. Beygelzimer, F. d'Alché-Buc, E. Fox, and R. Garnett (Eds. ニューラル情報処理システムの進歩、H. Wallach、H. Larochelle、A. Beygelzimer、F. d'Alché-Buc、E. Fox、R. Garnett(Eds)。 0.73
), Vol. 32. )であった。 32. 0.67
Curran Associates, Inc., Virtual, 11784–11794. Curran Associates, Inc., Virtual, 11784–11794。 0.93
https://proceedings. neurips.cc/paper/ 2019/file/c2073ffa77 b5357a498057413bb09d 3a-Paper.pdf https://proceedings. neurips.cc/paper/ 2019/file/c2073ffa77 b5357a498057413bb09d 3a-Paper.pdf 0.17
[18] Sören R Künzel, Jasjeet S Sekhon, Peter J Bickel, and Bin Yu. [18]Sören R Künzel, Jasjeet S Sekhon, Peter J Bickel, Bin Yu 0.68
2019. Metalearners for estimating heterogeneous treatment effects using machine learning. 2019. 機械学習を用いた不均一処理効果推定用メタナー 0.76
Proceedings of the National Academy of Sciences 116, 10 (2019), 4156–4165. 国立科学アカデミー (National Academy of Sciences) 116, 10 (2019), 4156–4165。 0.83
[19] Ricardo Margarito Ledesma. リカルド・マルガリート・レデスマ(Ricardo Margarito Ledesma) 0.58
2020. Systems and methods for one-time password authentication. 2020. ワンタイムパスワード認証のためのシステムと方法。 0.80
US Patent App. 16/918,742. 米国特許アプリ。 16/918,742. 0.62
[20] Jing Li, Pengjie Ren, Zhumin Chen, Zhaochun Ren, Tao Lian, and Jun Ma. [20]Jing Li、Pengjie Ren、Zhumin Chen、Zhaochun Ren、Tao Lian、Jun Ma。 0.60
2017. Neural Attentive Session-Based Recommendation. 2017. Neural Attentive Session-Based Recommendation (英語) 0.71
In Proc. 2017 ACM on Conference on Information and Knowledge Management (Singapore, Singapore) (CIKM ’17). Proc。 2017 ACM on Conference on Information and Knowledge Management (シンガポール、シンガポール) (CIKM ’17)。 0.65
ACM, New York, NY, 1419–1428. ACM, New York, NY, 1419–1428。 0.94
https://doi.org/10.1 145/3132847.3132926 https://doi.org/10.1 145/3132847.3132926 0.29
[21] Timothy P. Lillicrap, Jonathan J. [21]Timothy P. Lillicrap, Jonathan J. 0.87
Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、Daan Wierstra。 0.70
2019. Continuous control with deep reinforcement learning. 2019. 深層強化学習による継続的制御。 0.83
arXiv:1509.02971 [cs.LG] arXiv:1509.02971 [cs.LG] 0.53
[22] Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. 22] Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Alex Graves、Ioannis Antonoglou、Daan Wierstra、Martin Riedmiller。 0.67
2013. Playing Atari with Deep Reinforcement Learning. 2013. 深層強化学習でアタリをプレイ。 0.75
arXiv:1312.5602 [cs.LG] arXiv:1312.5602 [cs.LG] 0.53
[23] Tom Le Paine, Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna, Alexander Novikov, Ziyu Wang, and Nando de Freitas. [23]Tom Le Paine,Cosmin Paduraru, Andrea Michi, Caglar Gulcehre, Konrad Zolna, Alexander Novikov, Ziyu Wang, Nando de Freitas. 0.79
2020. Hyperparameter Selection for Offline Reinforcement Learning. 2020. オフライン強化学習のためのハイパーパラメータ選択 0.79
arXiv:2007.09055 [cs.LG] arXiv:2007.09055 [cs.LG] 0.53
[24] Bruno Pradel, Savaneary Sean, Julien Delporte, Sébastien Guérif, Céline Rouveirol, Nicolas Usunier, Françoise Fogelman-Soulié, and Frédéric Dufau-Joel. 24] Bruno Pradel、Savaneary Sean、Julien Delporte、Sébastien Guérif、Céline Rouveirol、Nicolas Usunier、Françoise Fogelman-Soulié、Frédéric Dufau-Joel。
訳抜け防止モード: 24] Bruno Pradel, Savaneary Sean, Julien Delporte, Sébastien Guérif, Céline Rouveirol, Nicolas Usunier, Françoise Fogelman - Soulié フレデリック・デュフォー(Frédéric Dufau) ジョエル。
0.85
2011. A Case Study in a Recommender System Based on Purchase Data. 2011. 購買データに基づく推薦システムにおける事例研究 0.74
In Proc. 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (San Diego, California, USA) (KDD ’11). Proc。 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (San Diego, California, USA) (KDD ’11)。 0.68
ACM, New York, NY, 377–385. ACM, New York, NY, 377–385。 0.94
https: //doi.org/10.1145/20 20408.2020470 [25] Doina Precup, Richard S. Sutton, and Satinder P. Singh. https: //doi.org/10.1145/20 20408.2020470[25] Doina Precup, Richard S. Sutton, Satinder P. Singh 0.68
2000. Eligibility Traces for Off-Policy Policy Evaluation. 2000. オフポリシ政策評価のための適格性軌跡。 0.75
In Proceedings of the Seventeenth International Conference on Machine Learning (ICML ’00). 第17回機械学習に関する国際会議(ICML’00)の進行。 0.68
Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 759–766. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 759–766。 0.93
[26] Martin L Puterman. マーティン・L・プーターマン(Martin L Puterman) 0.56
2014. Markov decision processes: discrete stochastic dynamic [27] Paul Rockwell. 2014. マルコフ決定過程:離散確率力学 [27] Paul Rockwell。 0.76
2016. Two factor authentication using a one-time password. 2016. ワンタイムパスワードを用いた2要素認証。 0.81
US programming. 米国 プログラミング。 0.77
John Wiley & Sons, Virtual. John Wiley & Sons, Virtual 0.69
Patent 9,378,356. 特許9,378,356。 0.45
[28] John Schulman, Sergey Levine, Pieter Abbeel, Michael Jordan, and Philipp Moritz. John Schulman氏、Sergey Levine氏、Pieter Abbeel氏、Michael Jordan氏、Philipp Moritz氏。 0.64
2015. Trust Region Policy Optimization. 2015. Trust Region Policy Optimizationの略。 0.81
In Proc. 32nd International Conference on Machine Learning (Proc. Proc。 第32回機械学習国際会議に参加して 0.66
Machine Learning Research, Vol. 機械学習研究、Vol。 0.69
37), Francis Bach and David Blei (Eds.). 37)、フランシス・バッハとデヴィッド・ブレイ (Eds.)。 0.64
PMLR, Lille, France, 1889–1897. PMLR, Lille, France, 1889–1897。 0.91
http://proceedings.m lr.press/ v37/schulman15.html http://proceedings.m lr.press/ v37/schulman15.html 0.33
[29] Mohit Kr Sharma and Manisha J Nene. [29] Mohit Kr SharmaとManisha J Nene。 0.81
2020. Two-factor authentication using 2020. 二要素認証 0.74
biometric based quantum operations. バイオメトリックベースの量子演算 0.77
Security and Privacy 3, 3 (2020), e102. セキュリティとプライバシ3, 3 (2020), e102。 0.78
[30] Noah Y. Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner, Nicolas Heess, and Martin Riedmiller. Noah Y. Siegel, Jost Tobias Springenberg, Felix Berkenkamp, Abbas Abdolmaleki, Michael Neunert, Thomas Lampe, Roland Hafner, Nicolas Heess, Martin Riedmiller. 0.75
2020. Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning. 2020. 動作し続ける:オフライン強化学習のための行動モデリング優先事項。 0.81
arXiv:2002.08396 [cs.LG] arXiv:2002.08396 [cs.LG] 0.53
[31] Richard S. Sutton and Andrew G. Barto. 31] Richard S. SuttonとAndrew G. Barto。 0.87
2018. Reinforcement Learning: An Introduction. 2018. 強化学習: 入門。 0.69
A Bradford Book, Cambridge, MA, USA. ブラッドフォード・ブック、ケンブリッジ、MA、米国。 0.59
[32] Richard S. Sutton, David McAllester, Satinder Singh, and Yishay Mansour. 32] Richard S. Sutton、David McAllester、Satinder Singh、Yishay Mansour。 0.72
1999. Policy Gradient Methods for Reinforcement Learning with Function Approximation. 1999. 関数近似を用いた強化学習のためのポリシー勾配法 0.82
In Proc. 12th International Conference on Neural Information Processing Systems (Denver, CO) (NIPS’99). Proc。 第12回ニューラル情報処理システム国際会議(デンバー、CO)(NIPS'99)。 0.60
MIT Press, Cambridge, MA, USA, 1057–1063. MIT Press, Cambridge, MA, USA, 1057–1063。 0.95
[33] Xueying Tang, Yunxiao Chen, Xiaoou Li, Jingchen Liu, and Zhiliang Ying. [33]Xueying Tang、Yunxiao Chen、Xiaoou Li、Jingchen Liu、Zhiliang Ying。 0.66
2019. A reinforcement learning approach to personalized learning recommendation systems. 2019. パーソナライズされた学習レコメンデーションシステムへの強化学習アプローチ 0.81
Brit. J. Math. 英国。 J。 数学。 0.72
Statist. Psych. 72, 1 (2019), 108–135. 統計官 精神病。 72, 1 (2019), 108–135. 0.61
[34] Philip Thomas and Emma Brunskill. 34] フィリップ・トーマスと エマ・ブランスキル 0.64
2016. Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning. 2016. 強化学習のためのデータ効率のオフポリシー政策評価 0.77
In Proceedings of The 33rd International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 第33回機械学習国際会議(proceedings of machine learning research, vol.)の開催にあたって 0.85
48), Maria Florina Balcan and Kilian Q. Weinberger (Eds.). 48)、マリア・フローリーナ・バルカン(Maria Florina Balcan)、キリアン・Q・ワインベルガー(Kilian Q. Weinberger)。 0.45
PMLR, New York, NY, 2139–2148. PMLR、ニューヨーク、ニューヨーク、2139-2148。 0.73
http://proceedings.m lr.press/v48/thomasa 16.html http://proceedings.m lr.press/v48/thomasa 16.html 0.26
[35] H. Toğuç and R. S. Kuzu. [35]H.トウチとR.S.クズ。 0.52
2020. Hybrid Models of Factorization Machines with Neural Networks and Their Ensembles for Click-through Rate Prediction. 2020. ニューラルネットワークを用いた因子化マシンのハイブリッドモデルとクリックスルー速度予測のためのアンサンブル 0.81
In 2020 5th International Conf. 2020年第5回国際会議。 0.75
on Computer Science and Engineering (UBMK). コンピュータサイエンスとエンジニアリング(UBMK)について。 0.73
ICEECS, Hangzhou, China, 31–36. ICEECS、杭州、中国、31-36。 0.77
https://doi.org/10.1 109/UBMK50275.2020.9 219371 [36] Hado van Hasselt, Arthur Guez, and David Silver. https://doi.org/10.1 109/UBMK50275.2020.9 2 19371 [36] Hado van Hasselt, Arthur Guez, David Silver 0.64
2015. Deep Reinforcement 2015. 深層補強 0.75
Learning with Double Q-learning. ダブルq学習による学習。 0.75
arXiv:1509.06461 [cs.LG] arXiv:1509.06461 [cs.LG] 0.53
[37] Hanson Wang, Zehui Wang, and Yuanyuan Ma. 37]Hanson Wang、Zehui Wang、およびYuanyuan Ma。 0.65
2020. Predictive Precompute with Recurrent Neural Networks. 2020. 繰り返しニューラルネットワークによる予測前処理 0.80
In Proc. Machine Learning and Systems, I. Dhillon, D. Papailiopoulos, and V. Sze (Eds. Proc。 機械学習とシステム、I. Dhillon、D. Papailiopoulos、V. Sze (Eds)。 0.70
), Vol. 2. mlsys.org, San Jose, CA, 470–480. )であった。 2. mlsys.org, San Jose, CA, 470–480。 0.64
https://proceedings. mlsys.org/paper/2020 /file/ 8f53295a73878494e9bc 8dd6c3c7104f-Paper.p df https://proceedings. mlsys.org/paper/2020 /file/ 8f53295a73878494e9bc 8dd6c3c7104f-Paper.p df 0.16
[38] Zihan Wang, Ziheng Jiang, Zhaochun Ren, Jiliang Tang, and Dawei Yin. [38]Zihan Wang、Ziheng Jiang、Zhaochun Ren、Jiliang Tang、Dawei Yin。 0.66
2018. A Path-Constrained Framework for Discriminating Substitutable and Complementary Products in E-Commerce. 2018. Eコマースにおける代替的および補完的製品の識別のためのパス制約フレームワーク 0.71
In Proc. Eleventh ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM ’18). Proc。 第11回 ACM International Conference on Web Search and Data Mining (Marina Del Rey, CA, USA) (WSDM'18) 0.66
ACM, New York, NY, 619–627. ACM, New York, NY, 619–627。 0.94
https://doi.org/10.1 145/3159652.3159710 [39] Ziyu Wang, Alexander Novikov, Konrad Zolna, Jost Tobias Springenberg, Scott Reed, Bobak Shahriari, Noah Siegel, Josh Merel, Caglar Gulcehre, Nicolas Heess, and Nando de Freitas. https://doi.org/10.1 145/3159652.3159710 [39] Ziyu Wang, Alexander Novikov, Konrad Zolna, Jost Tobias Springenberg, Scott Reed, Bobak Shahriari, Noah Siegel, Josh Merel, Caglar Gulcehre, Nicolas Heess, Nando de Freitas。 0.92
2020. Critic Regularized Regression. 2020. 批判的正規化回帰。 0.70
arXiv:2006.15134 [cs.LG] arXiv:2006.15134 [cs.LG] 0.53
[40] Ziyu Wang, Tom Schaul, Matteo Hessel, Hado Hasselt, Marc Lanctot, and Nando Freitas. 40]Ziyu Wang, Tom Schaul, Matteo Hessel, Hado Hasselt, Marc Lanctot, Nando Freitas。 0.70
2016. Dueling Network Architectures for Deep Reinforcement Learning. 2016. 深層強化学習のためのネットワークアーキテクチャのデュエル。 0.77
In Proc. 33rd International Conference on Machine Learning (Proc. Proc。 第33回機械学習国際会議に参加して 0.66
Machine Learning Research, Vol. 機械学習研究、Vol。 0.69
48), Maria Florina Balcan and Kilian Q. Weinberger (Eds.). 48)、マリア・フローリーナ・バルカン(Maria Florina Balcan)、キリアン・Q・ワインベルガー(Kilian Q. Weinberger)。 0.45
PMLR, New York, NY, 1995–2003. PMLR, New York, NY, 1995–2003 0.87
http://proceedings.m lr.press/v48/wangf16 .html [41] Christopher JCH Watkins and Peter Dayan. http://proceedings.m lr.press/v48/wangf16 .html [41] Christopher JCH WatkinsとPeter Dayan。 0.57
1992. Q-learning. 1992. Q学習。 0.79
Machine learning [42] Yifan Wu, George Tucker, and Ofir Nachum. 機械学習 [42] Yifan Wu, George Tucker, Ofir Nachum。 0.69
2019. Behavior Regularized Offline 2019. 行動規則化オフライン 0.76
8, 3-4 (1992), 279–292. 8, 3-4 (1992), 279–292. 0.90
Reinforcement Learning. arXiv:1911.11361 [cs.LG] 強化学習。 arXiv:1911.11361 [cs.LG] 0.62
                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。