論文の概要: An Efficient Algorithm for Deep Stochastic Contextual Bandits
- arxiv url: http://arxiv.org/abs/2104.05613v1
- Date: Mon, 12 Apr 2021 16:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-04-13 13:47:38.274487
- Title: An Efficient Algorithm for Deep Stochastic Contextual Bandits
- Title(参考訳): 深い確率的文脈帯域の効率的なアルゴリズム
- Authors: Tan Zhu, Guannan Liang, Chunjiang Zhu, Haining Li, Jinbo Bi
- Abstract要約: コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
- 参考スコア(独自算出の注目度): 10.298368632706817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In stochastic contextual bandit (SCB) problems, an agent selects an action
based on certain observed context to maximize the cumulative reward over
iterations. Recently there have been a few studies using a deep neural network
(DNN) to predict the expected reward for an action, and the DNN is trained by a
stochastic gradient based method. However, convergence analysis has been
greatly ignored to examine whether and where these methods converge. In this
work, we formulate the SCB that uses a DNN reward function as a non-convex
stochastic optimization problem, and design a stage-wise stochastic gradient
descent algorithm to optimize the problem and determine the action policy. We
prove that with high probability, the action sequence chosen by this algorithm
converges to a greedy action policy respecting a local optimal reward function.
Extensive experiments have been performed to demonstrate the effectiveness and
efficiency of the proposed algorithm on multiple real-world datasets.
- Abstract(参考訳): 確率的文脈バンドイット(SCB)問題では、エージェントは、ある観測されたコンテキストに基づいてアクションを選択し、反復よりも累積的な報酬を最大化する。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われており、DNNは確率勾配に基づく方法で訓練されている。
しかし、収束解析はこれらの手法が収束するかどうかを調べるために無視されている。
本研究では,dnn 報酬関数を非凸確率最適化問題として用いる scb を定式化し,ステージワイズ確率勾配降下アルゴリズムを設計,問題を最適化し,行動方針を決定する。
高い確率で、このアルゴリズムによって選択されたアクションシーケンスは、局所最適報酬関数に関する欲求行動ポリシーに収束することを示す。
複数の実世界のデータセット上で提案アルゴリズムの有効性と有効性を示すため,大規模な実験が実施されている。
関連論文リスト
- Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Stochastic Compositional Gradient Descent under Compositional
constraints [13.170519806372075]
目的関数と制約関数が凸であり,関数の合成として表される制約最適化問題について検討する。
この問題は、公平な分類/回帰とキューシステムの設計に生じる。
提案手法は最適かつ実現可能な解をほぼ確実に見つけることが保証されている。
論文 参考訳(メタデータ) (2020-12-17T05:38:37Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。